logo of bilibili

哔哩哔哩多模态内容理解实习生

实习兼职技术类地点:上海状态:招聘

任职要求


- 计算机、人工智能、电子信息等相关专业本科及以上全日制在读,2027届及以后毕业;
- 扎实的计算机视觉基础,有VLM相关的实习、科研或竞赛经历;
- 熟悉Python编程,掌握PyTorch等主流深度学习框架,熟练使用Vibe cod…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


- 参与多模态大模型(VLM)在内容安全场景的研究与落地,涵盖数据自动标注、模型微调及效果评估;
- 协助识别与分析图像/视频中的安全风险(如违规、低俗、欺诈、暴力等),推动检测能力迭代;
- 参与高质量数据集的构建、清洗与分析,驱动模型在安全场景下的持续优化;
- 跟进多模态理解、内容安全等领域的前沿进展,参与团队技术分享与方案创新。
包括英文材料
OpenCV+
Python+
PyTorch+
深度学习+
Linux+
还有更多 •••
相关职位

logo of netease
实习网易云音乐

我们是网易云音乐算法团队,专注于行业领先的搜索或者推荐算法,我们致力于通过技术赋能云音乐各项业务,通过社区广场推荐,提升用户体验,产生商业化价值。 在这里你可以: 1、参与云音乐各场景相关的AIGC算法应用,使用NLP、多模态、LLM等技术,优化包括多模态内容理解、大模型交互式对话、大模型AI创作生成等业务应用的效果提升; 2、参与云音乐创新业务相关的算法优化,使用业界领先的深度学习、强化学习、图模型等,优化推荐、直播、声音、社交等业务的算法; 3、参与前沿的基础算法模型建设,包括继续预训练、视频生成微调,音乐生成训练等垂类基座模型的构建和应; 4、接触到亿级别海量、真实的用户数据,使用深度学习、强化学习、图模型等算法,发挥推荐的价值; 5、使用行业领先的大规模分布式机器学习平台,例如tensorflow等开源的工具,实现并不断优化推荐、搜索等算法。

更新于 2025-06-30杭州
logo of xiaohongshu
实习大模型

本课题的研究目标是优化AI与人类的多模态交互体验,通过研发能够融合文本、视觉和语音等多种模态的自然交互机制,使AI系统能够通过理解图像内容、语音语调和情感等非文本信息增强交互效果。 研究将探索情境感知与个性化适应技术、多轮多模态交互中的意图理解与记忆保持能力,以及跨模态信息的整合与表达方式,使AI系统能够更好地理解用户通过不同感知通道传达的需求,提供视觉和语音层面的情感共鸣,并在长期多模态交互中不断适应用户偏好,实现更加流畅、高效且人性化的人机协作。

更新于 2025-08-22上海|北京|杭州
logo of xiaohongshu
校招AIGC算法

目前主流的素材混剪能力主要依赖于素材的端内容理解、表征匹配、高光检测等能力帮助一键完成整个视频剪辑过程,偏模板化,且预定义较为死板,无法支持更丰富的信息量注入,以及用户自主输入剪辑要求。 本课题希望通过大语言模型的语义指令解析能力,开放基于可自定义prompt的视频编辑能力,通过指令分解、协同主题文案生成的方式,帮助完成带有故事感文案生成能力的视频剪辑功能。主要的技术难点包括: 1、多模态理解与表征:需要模型能够深入理解不同模态内容(视频片段、图像、音频)的语义和上下文; 2、时序理解与编辑:视频混剪需要理解时序信息,包括情节发展、节奏感、转场点等; 3、文案生成和改写:可自定义主题、风格的素材文案生成能力。

更新于 2026-03-24北京|杭州|上海
logo of xiaohongshu
实习大模型

【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。

北京