哔哩哔哩算法实习生（视频理解/多模态大模型方向）

实习兼职技术类2025-10-31地点：上海状态：招聘

扫码手机上打开

任职要求

任职要求：
1.2027届及以后毕业，计算机科学、人工智能、数学、统计学等相关专业的硕士或博士在校生。
2.熟练掌握Python和PyTorch等主流深度学习框架，具备良好的编程能力和扎实的数学基础。
3.具备视频多模态大模型的相关知识，熟悉VLM、video VLM以及长视频内容理解，了解主流的开源模型。
4.熟悉VLM、video VLM的预训练、继续预训练、后训练等关键流程，具备数据处理、模型训练…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

工作职责：
1.探索视频多模态大模型（video VLM）的前沿技术，负责数据建设、模型训练与评测框架搭建。
2.深入研究并实践视频多模态大模型的全套训练流程，包括预训练、继续预训练以及后训练。
3.跟踪并复现主流的开源视频多模态模型，进行前沿论文的调研、复现与创新。
4.协助优化视频内容理解、dense video caption等相关任务上的模型效果，持续提高算法的性能与效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

PyTorch+

深度学习+

大模型+

NeurIPS+

还有更多 •••

登录查看完整学习资料

相关职位

视频内容理解-多模态算法项目实习生

实习核心本地商业-业

1. 负责基于多模态内容理解的应用能力建设以及技术沉淀，如图像/视频理解、内容审核以及多模态生成等，服务用户增长、营销、搜索、推荐等流量分发场景。 2. 参与多模态大模型前沿技术的探索及落地，尝试前沿的技术方案创新。

更新于 2026-01-11北京

研究型实习生-视频理解与生成应用算法研究

实习阿里巴巴研究型实

专注于视频理解与生成应用算法研究，具体研究内容包括： 1.视频理解：通过高质量数据构建方案，实现视频的精细主体/运动/场景描述以及长视频结构化描述（如人物关系、情节发展、故事主旨），支持长视频问答与精准时序定位。同时结合R1等前沿思维链技术解析复杂视频事件，视频逻辑推理等； 2.视频生成：聚焦视频DiT/AR等前沿架构下的垂类微调，包括复杂人体运动/场景动效生成与可控编辑技术，研究多模态指令驱动的视频编辑、人体运动增强及物理约束建模方法，提升生成视频的动态质量与风格迁移能力。

更新于 2026-04-27北京|杭州

研究型实习生 - 超长视频内容理解算法研究

实习通义研究型实习生

1. 负责超长视频内容的前沿算法研究、实现与优化，重点攻克高效的长视频处理机制，如关键帧选择、特征压缩和记忆机制。 2. 参与构建和清洗大规模多模态数据集，优化长视频理解在视频问答、内容摘要等任务上的准确率，优化视频场景下模型的推理能力。 3. 具备技术前瞻性与创新能力，跟踪国际最新技术动态，探索如多模态理解创新架构、音视频理解等新方向，并提出创新算法或方案，推动学术前沿发展。

更新于 2025-12-18北京|杭州|上海

研究型实习生-超长视频内容理解算法研究

实习阿里巴巴研究型实

更新于 2026-07-27北京|杭州|上海