logo of bilibili

哔哩哔哩算法实习生(视频理解/多模态大模型方向)

实习兼职技术类地点:上海状态:招聘

任职要求


任职要求:
1.2027届及以后毕业,计算机科学、人工智能、数学、统计学等相关专业的硕士或博士在校生。
2.熟练掌握PythonPyTorch等主流深度学习框架,具备良好的编程能力和扎实的数学基础。
3.具备视频多模态大模型的相关知识,熟悉VLM、video VLM以及长视频内容理解,了解主流的开源模型。
4.熟悉VLM、video VLM的预训练、继续预训练、后训练等关键流程,具备数据处理、模型训练…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


工作职责:
1.探索视频多模态大模型(video VLM)的前沿技术,负责数据建设、模型训练与评测框架搭建。
2.深入研究并实践视频多模态大模型的全套训练流程,包括预训练、继续预训练以及后训练。
3.跟踪并复现主流的开源视频多模态模型,进行前沿论文的调研、复现与创新。
4.协助优化视频内容理解、dense video caption等相关任务上的模型效果,持续提高算法的性能与效率。
包括英文材料
Python+
PyTorch+
深度学习+
大模型+
NeurIPS+
还有更多 •••
相关职位

logo of quark
实习日常实习生

1.前沿技术探索与落地:参与多模态理解、生成式模型、强化学习等前沿技术的应用研究,协助进行多模态模型的数据建设、指令微调、偏好对齐等工作,协助团队进行技术验证和原型开发。 2.多模态 Agent 能力探索:支持多模态交互的基础能力研发,探索多模态 RAG、视觉 CoT、多模态 Agent 等进阶能力;参与 GUI/游戏等虚拟世界的通用多模态 Agent 项目的研究工作。 3.数据建设与评测体系:参与数据质量评估、标注标准制定及自动化数据 Pipeline 的搭建与维护,参与图像/视频理解评估、世界模型评估方法的实验。

更新于 2026-03-25杭州
logo of insta360
实习

1、探索和研究多模态大模型AIGC、LLM、VLM技术,理解算法原理并进行深度定制和优化; 2、根据业务场景需求,进行数据搭建、模型修改、指令微调、偏好对齐、Benchmark等一系列算法优化工作; 3、提出创新性的算法解决思路,并结合前沿算法成果改进现有算法系统,探索多模态大模型在更多业务场景上的赋能。

更新于 2025-03-24深圳
logo of bytedance
实习A57708A

团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:随着4K、HDR等技术成为主流标准,消费者对视频画质的要求日益提升。然而,视频在拍摄、传输和压缩过程中,画质往往受损,影响观看体验。多模态大模型的出现为视频分析、理解、画质评估、及画质增强提供了新的可能性,因此希望能够探索多模态大模型在多媒体场景的应用可行性,发掘基座大模型在大规模业务视频内容应用的潜力,建立业内领先的多媒体场景的多模态大模型解决方案。 画质分析以及人眼感知:利用多模态大模型,深入分析视频内容及画质退化问题,研究人眼对色彩、帧率、清晰度等画质维度的感知能力,从而使得画质评估更为准确,画质增强对退化的处理更为智能,增强的结果更符合人眼主观。生成式画质增强:利用生成式大模型的先验信息,大幅提升画质增强的效果天花板,并且解决生成伪像、生成保真度、生成稳定性等当前生成式算法存在的问题。视频时域任务:研究画质理解和增强在视频上的拓展,包括时域信息表征建模,时域退化理解,时域画质增强连续性,时域推理加速等。用户视角的验证:在大规模用户环境中,从用户的实际观看体验出发,验证画质增强算法的有效性和用户满意度。 1、支持研发基于大模型的多媒体算法,包括但是不限于视频理解,质量评价、视频处理和增强以及视频压缩; 2、支持多模态大模型相关算法的性能优化以及加速; 3、支持多模态大模型的算法在多媒体业务中落地,在图文、点播、直播等业务中发掘应用场景; 4、支持多模态大模型相关的前沿学术研究,在国际顶级会议与期刊中发表成果。

更新于 2025-03-06北京
logo of bytedance
实习A86112

团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:随着4K、HDR等技术成为主流标准,消费者对视频画质的要求日益提升。然而,视频在拍摄、传输和压缩过程中,画质往往受损,影响观看体验。多模态大模型的出现为视频分析、理解、画质评估、及画质增强提供了新的可能性,因此希望能够探索多模态大模型在多媒体场景的应用可行性,发掘基座大模型在大规模业务视频内容应用的潜力,建立业内领先的多媒体场景的多模态大模型解决方案。 画质分析以及人眼感知:利用多模态大模型,深入分析视频内容及画质退化问题,研究人眼对色彩、帧率、清晰度等画质维度的感知能力,从而使得画质评估更为准确,画质增强对退化的处理更为智能,增强的结果更符合人眼主观。生成式画质增强:利用生成式大模型的先验信息,大幅提升画质增强的效果天花板,并且解决生成伪像、生成保真度、生成稳定性等当前生成式算法存在的问题。视频时域任务:研究画质理解和增强在视频上的拓展,包括时域信息表征建模,时域退化理解,时域画质增强连续性,时域推理加速等。用户视角的验证:在大规模用户环境中,从用户的实际观看体验出发,验证画质增强算法的有效性和用户满意度。 1、支持研发基于大模型的多媒体算法,包括但是不限于视频理解,质量评价、视频处理和增强以及视频压缩; 2、支持多模态大模型相关算法的性能优化以及加速; 3、支持多模态大模型的算法在多媒体业务中落地,在图文、点播、直播等业务中发掘应用场景; 4、支持多模态大模型相关的前沿学术研究,在国际顶级会议与期刊中发表成果。

更新于 2025-03-06上海