美团【基座大模型北斗实习】多模态大模型能力与前沿交互方式研究

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、硕士及以上学历，计算机或相关专业，博士优先。；
2、在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础，在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：多模态大模型能力在近年飞速发展，模态的统一、任务的统一、多种模态联合生成和实时交互带来了崭新的应用体验和生产力提升。在这个过程中，我们需要脚踏实地的同时仰望星空，发挥想象力预判新模型能力带来的应用场景革新，研究达到理想态的关键演进路径并进行度量分析，指引长期有潜力的模型迭代方向。方向包括但不限于：
1、多模Agent方向：包括在多模态的工具调用和GUI/CUA，探索结合多模原生能力的OpenClaw展现出的生产力提升潜力，从基座模型能力角度分析其中的关键影响因素并进行自动化度量，指引基座模型的迭代。
2、多模态统一方向：包括全模态统一模型、音视频联合生成等，思考在模态统一、任务统一和多种模态联合生成过程带来新的能力跃迁并进行度量，分析模态和任务间的相互关联，指引模型架构、训练策略等选型。
3、多模交互方向：包括通用世界模型、音视频交互等，研究动态多轮交互中的一致性、真实性和长程记忆等关键能力的自动化度量，指引基座模型的迭代。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

ACL+

EMNLP+

NeurIPS+

ICML+

ICLR+

还有更多 •••

登录查看完整学习资料

相关职位

【基座大模型北斗实习】多模态后训练及 Agent 能力拓展

实习核心本地商业-基

简介：跟踪多模态后训练前沿方法（SFT / DPO / GRPO 等），快速完成技术预研与可行性验证，形成可落地的训练方案并推动模型迭代。 1、面向复杂业务场景（如多轮交互、长序列推理、跨模态 Agent 决策等），进行针对性的垂域数据建设与指令微调，持续提升模型在垂直场景下的表现上限。 2、建设后训练评估体系与数据飞轮，设计面向垂域场景的自动化评测基准，驱动"评测→数据→训练→评测"的闭环迭代。 3、探索多模态大模型与新一代Agent框架（Claude Code、OpenClaw 等）的深度结合，研究模型在工具调用、环境感知、多步规划等场景下的能力边界，推动多模态模型从"被调用"向"自主交互"演进，拓展智能体在真实复杂环境中的落地路径。

更新于 2026-04-03北京

【基座大模型北斗实习】多模态大模型基座前沿探索与应用

实习核心本地商业-基

简介：多模态能力是通用人工智能的关键要素之一。本研究方向聚焦于多模态大模型的模型结构、统一训练范式、数据能力体系等前沿内容，旨在通过统一的模型架构打通视觉、语言、和语音等模态之间的壁垒，实现多模态信息的深度理解与高质量生成，持续提升视觉能力帮助多模态大模型更全面地理解世界知识，为跨模态对齐、复杂视觉任务、多模知识迁移提供基座模型。具体地，我们关注如下研究方向： 1、多模态大模型基座：探索并不断突破多模态基座模型的能力上限。具体地，负责大模型相关技术前沿探索，包括但不限于融合模型架构探索、原生训练范式探索、高效训推框架探索等，不断提升模型的理解能力、生成质量、多样性、可控性等。负责不同规模、不同结构的多模态模型的数据准备和优化，构建多模态数据处理流程等。 2、视频多模态能力提升：负责解决多模态视频大模型领域的前沿技术难题，如视频后训练、长视频时序理解、音视频等，探索短视频、长视频、视频流等不同形态的视频多模态方案，探究图像、视频统一的多模态解决方案。 3、视觉基座表征能力提升：面向不同的多模态架构和训练范式，从视觉基座的角度深入探索视觉连续表征和离散表征的联系和区别，负责探索更具通用性的多模态视觉特征，生产行业内领先的视觉基座。 4、多模态理解生成统一：负责多模态理解与生成的前沿探索与研究，包括但不限于视觉表征统一训练、多模态统一架构探索、理解与生成任务关系研究。

更新于 2026-04-03北京|上海|深圳

【基座大模型北斗实习】多模态大模型技术研究

实习核心本地商业-基

简介：参与多模态大模型方向的前沿研究，可根据个人背景和研究兴趣选择以下方向之一深入推进： 1、多模态预训练与后训练技术创新，提升模型在 OCR、文档图表解析、Visual Grounding、细粒度感知、视觉问答等核心任务上的能力上限。 2、多模态强化学习方案设计，实现视觉感知与多模态理解场景下的高性能可信输出与幻觉抑制。 3、视觉推理能力增强研究（Visual CoT、PRM 等），提升模型在复杂视觉任务上的推理深度。 4、工具调用与 Agent 能力构建，探索多模态模型在规划决策场景中的综合表现。 5、长上下文视觉理解与 GUI 能力研究，提升模型在长程复杂任务上的综合能力。 6、其他你坚信路线正确的多模态大模型前沿方向。

更新于 2026-04-03北京|上海|深圳

【基座大模型北斗实习】原生多模态大模型研究

实习核心本地商业-基

简介：原生多模态旨在以统一的范式处理文本、视觉、语音等各个模态的数据，从而更加自然地进行模态融合，以及通过scaling友好的训练范式，解锁模型智能的新维度。研究课题包括但不限于： 1、探索early fusion阶段，引入图文交错/audio等多模态序列数据自监督预训练带来的scaling价值。 2、原生全模态预训练的training dynamic探究，模态之间的关系建模。 3、通过SFT / RL等手段，借助多模态token解锁模型新的智能维度，提升模型解决Robot/Gaming等物理世界问题的能力。

更新于 2026-04-03北京|上海