哔哩哔哩算法实习生(视频理解/多模态大模型方向)
任职要求
任职要求: 1.2027届及以后毕业,计算机科学、人工智能、数学、统计学等相关专业的硕士或博士在校生。 2.熟练掌握Python和PyTorch等主流深度学习框架,具备良好的编程能力和扎实的数学基础。 3.具备视频多模态大模型的相关知识,熟悉VLM、video VLM以及长视频内容理解,了解主流的开源模型。 4.熟悉VLM、video VLM的预训练、继续预训练、后训练等关键流程,具备数据处理、模型训练…
工作职责
工作职责: 1.探索视频多模态大模型(video VLM)的前沿技术,负责数据建设、模型训练与评测框架搭建。 2.深入研究并实践视频多模态大模型的全套训练流程,包括预训练、继续预训练以及后训练。 3.跟踪并复现主流的开源视频多模态模型,进行前沿论文的调研、复现与创新。 4.协助优化视频内容理解、dense video caption等相关任务上的模型效果,持续提高算法的性能与效率。
我们是网易云音乐算法团队,专注于行业领先的搜索或者推荐算法,我们致力于通过技术赋能云音乐各项业务,通过社区广场推荐,提升用户体验,产生商业化价值。 在这里你可以: 1、参与云音乐各场景相关的AIGC算法应用,使用NLP、多模态、LLM等技术,优化包括多模态内容理解、大模型交互式对话、大模型AI创作生成等业务应用的效果提升; 2、参与云音乐创新业务相关的算法优化,使用业界领先的深度学习、强化学习、图模型等,优化推荐、直播、声音、社交等业务的算法; 3、参与前沿的基础算法模型建设,包括继续预训练、视频生成微调,音乐生成训练等垂类基座模型的构建和应; 4、接触到亿级别海量、真实的用户数据,使用深度学习、强化学习、图模型等算法,发挥推荐的价值; 5、使用行业领先的大规模分布式机器学习平台,例如tensorflow等开源的工具,实现并不断优化推荐、搜索等算法。
尽管当前的多模态大模型(融合视觉、语音、文本)已展现出强大的感知与理解潜力,但是在实时交互场景中,由于模型设计导致的高延迟、生硬的轮次状态、频繁的打断或被打断严重影响信息传递效率。同时多个模态无法实时融合也限制了多模态模型在语音交互场景下的深度应用。生成的交互内容有时显得冗长、缺乏提炼或智能不足,这些问题限制了用户与大模型实时交流的体验。 本课题的目标是设计并验证一种全模态实时交互的大模型架构,将视觉模态、语音流模态、思考模态信息以及 SOTA LLM 进行实时融合。从而使得大模型可以与人进行即时、流畅、且深入浅出、富有智慧的多模态自然语音对话。
1、基于大模型等前沿技术,构建多模态内容理解模型,并应用到小红书多模态搜索来解决实际业务问题 2、进行大模型前沿技术探索和研发,发表国际顶级论文 3、参与多模态大模型相关的业务落地,包括但不限于笔记图文/视频多模态内容理解、视频结构化、多模态意图理解等