美团【基座大模型北斗实习】多模态大模型基座前沿探索与应用

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

1、硕士及以上学历，计算机、人工智能、自动化、数学、自然语言处理等相关专业，博士优先；
2、在以下一个或多个领域有较深入的研究或实践经验：多模态大模型（MLLM）、全模态融合大模型（Omni-LLM），视觉基座（Vision-Model）、理解生成统一（Unified-MM）、强化学习（RL）；…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：多模态能力是通用人工智能的关键要素之一。本研究方向聚焦于多模态大模型的模型结构、统一训练范式、数据能力体系等前沿内容，旨在通过统一的模型架构打通视觉、语言、和语音等模态之间的壁垒，实现多模态信息的深度理解与高质量生成，持续提升视觉能力帮助多模态大模型更全面地理解世界知识，为跨模态对齐、复杂视觉任务、多模知识迁移提供基座模型。
具体地，我们关注如下研究方向：
1、多模态大模型基座：探索并不断突破多模态基座模型的能力上限。具体地，负责大模型相关技术前沿探索，包括但不限于融合模型架构探索、原生训练范式探索、高效训推框架探索等，不断提升模型的理解能力、生成质量、多样性、可控性等。负责不同规模、不同结构的多模态模型的数据准备和优化，构建多模态数据处理流程等。
2、视频多模态能力提升：负责解决多模态视频大模型领域的前沿技术难题，如视频后训练、长视频时序理解、音视频等，探索短视频、长视频、视频流等不同形态的视频多模态方案，探究图像、视频统一的多模态解决方案。
3、视觉基座表征能力提升：面向不同的多模态架构和训练范式，从视觉基座的角度深入探索视觉连续表征和离散表征的联系和区别，负责探索更具通用性的多模态视觉特征，生产行业内领先的视觉基座。
4、多模态理解生成统一：负责多模态理解与生成的前沿探索与研究，包括但不限于视觉表征统一训练、多模态统一架构探索、理解与生成任务关系研究。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

大模型+

强化学习+

算法+

还有更多 •••

登录查看完整学习资料