logo of meituan

美团【基座大模型北斗实习】原生多模态大模型研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


岗位要求:
1、熟悉NLPLLM、MLLM、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验;
2、熟悉PythonC++等至少一门编程语言,熟悉LINUX环境;
3、熟…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:原生多模态旨在以统一的范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。

研究课题包括但不限于:
1、探索early fusion阶段,引入图文交错/audio等多模态序列数据自监督预训练带来的scaling价值。
2、原生全模态预训练的training dynamic探究,模态之间的关系建模。
3、通过SFT / RL等手段,借助多模态token解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。
包括英文材料
NLP+
大模型+
Python+
C+++
Linux+
Megatron+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

简介:多模态大模型能力在近年飞速发展,模态的统一、任务的统一、多种模态联合生成和实时交互带来了崭新的应用体验和生产力提升。在这个过程中,我们需要脚踏实地的同时仰望星空,发挥想象力预判新模型能力带来的应用场景革新,研究达到理想态的关键演进路径并进行度量分析,指引长期有潜力的模型迭代方向。方向包括但不限于: 1、多模Agent方向:包括在多模态的工具调用和GUI/CUA,探索结合多模原生能力的OpenClaw展现出的生产力提升潜力,从基座模型能力角度分析其中的关键影响因素并进行自动化度量,指引基座模型的迭代。 2、多模态统一方向:包括全模态统一模型、音视频联合生成等,思考在模态统一、任务统一和多种模态联合生成过程带来新的能力跃迁并进行度量,分析模态和任务间的相互关联,指引模型架构、训练策略等选型。 3、多模交互方向:包括通用世界模型、音视频交互等,研究动态多轮交互中的一致性、真实性和长程记忆等关键能力的自动化度量,指引基座模型的迭代。

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

简介:围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。 1、探索 Agent 的学习范式:online learning/自博弈/自进化:围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索,重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈,以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。 2、Agentic-native model 范式:扩散模型/世界模型/生成式规划:探索三类互补路径:其一,学习可供 Agent 调用的世界模型,用于预测状态转移、环境反馈与长期结果;其二,用扩散式或潜变量式生成机制,对动作序列、子目标或未来轨迹进行并行采样与迭代修正,提升长程规划能力;其三,把生成式规划与搜索/验证结合,通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划,把先想后做的能力落实到系统。 3、超长上下文与记忆:围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究,重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习,以及长上下文与显式记忆协同的系统设计,以支撑长时程规划、多轮任务连续性与个体化经验积累.

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

简介:我们认为,训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决。这里,环境向真实物理世界演化是一个可以预见的方向,从而依赖模型在动态的、存在时序自变化的多模态环境下的探索与交互能力。为了激发这样的能力,一方面,我们认为游戏是一个高度可验证、同时充满训练潜力的场景;另一方面,如 minecraft / 原神 以至更复杂的开放世界环境更可以作为智能体系统在进行真实物理世界训练之前的一个练兵场。 具体的,我们关注如下研究目标: 1、探索通过在高度多样、丰富的游戏任务下进行大规模智能体训练,提高模型面对一般多模态场景的交互与融合模态推理能力。 2、探索趋向于真实物理世界的开放世界建模,为模型在真实物理世界下的训练和模拟训练提供坚实基础。 3、训练模型在动态、时序变化的开放世界下,自主进行感知、观察、探索、交互、任务推进的能力,并预期这样的能力作为真实物理世界训练的坚实前置基础,可以 minimize 所需的高成本真实物理世界训练量。

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

简介:本课题聚焦于超大规模预训练数据的深度理解、提纯与价值挖掘,建立数据与模型能力之间的因果联系,打造下一代万亿基座模型的高效数据引擎,致力于提升基座模型的智能上限。研究内容包括但不限于: 1、研发基于模型的高效数据质量评估、去重与清洗算法,提高数据质量、多样性和覆盖度。 2、深入探究数据分布与模型能力的因果关系,建立“训练数据-模型效果”归因机制,探索并突破基座模型的能力上限。 3、探索自动化数据筛选机制、动态配比(Data Mixture)与多阶段训练范式,探索不同类型数据对模型能力的Scaling Law。 4、构建科学、多维度的基座模型能力和潜力评估,驱动预训练数据策略的优化,形成高效的数据迭代闭环。

更新于 2026-04-03北京|上海