logo of meituan

美团【基座大模型北斗实习】智能体系统的通用游戏能力与开放世界探索能力研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


岗位要求:
1、本科及以上学历,计算机、人工智能、自动化、数学、物理等相关专业在读; 
2、在强化学习、文本/多模态大模型训练、Agent 、世界模型等一个或多个领域有较深入的研究和实践经验者; 
3、好奇…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:我们认为,训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决。这里,环境向真实物理世界演化是一个可以预见的方向,从而依赖模型在动态的、存在时序自变化的多模态环境下的探索与交互能力。为了激发这样的能力,一方面,我们认为游戏是一个高度可验证、同时充满训练潜力的场景;另一方面,如 minecraft / 原神 以至更复杂的开放世界环境更可以作为智能体系统在进行真实物理世界训练之前的一个练兵场。

具体的,我们关注如下研究目标:
1、探索通过在高度多样、丰富的游戏任务下进行大规模智能体训练,提高模型面对一般多模态场景的交互与融合模态推理能力。
2、探索趋向于真实物理世界的开放世界建模,为模型在真实物理世界下的训练和模拟训练提供坚实基础。
3、训练模型在动态、时序变化的开放世界下,自主进行感知、观察、探索、交互、任务推进的能力,并预期这样的能力作为真实物理世界训练的坚实前置基础,可以 minimize 所需的高成本真实物理世界训练量。
包括英文材料
学历+
强化学习+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

简介:围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。 1、探索 Agent 的学习范式:online learning/自博弈/自进化:围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索,重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈,以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。 2、Agentic-native model 范式:扩散模型/世界模型/生成式规划:探索三类互补路径:其一,学习可供 Agent 调用的世界模型,用于预测状态转移、环境反馈与长期结果;其二,用扩散式或潜变量式生成机制,对动作序列、子目标或未来轨迹进行并行采样与迭代修正,提升长程规划能力;其三,把生成式规划与搜索/验证结合,通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划,把先想后做的能力落实到系统。 3、超长上下文与记忆:围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究,重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习,以及长上下文与显式记忆协同的系统设计,以支撑长时程规划、多轮任务连续性与个体化经验积累.

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

简介:随着 OpenClaw、Claude Code 等 Agent 进入实战领域,传统的静态评测已无法衡量 Agent 的长程规划、自主纠错与真实环境交互能力。我们寻找对 Agent 评测范式有独特见解的同学,共同定义下一代 Agent 的考卷。你将参与的工作有: 1、评测范式研究与落地: ①针对 OpenClaw 及 Claude Code 等主流 Agent,构建基于真实生产力场景,如自动化办公、复杂代码重构、多工具协同等的动态评测沙盒环境。 ②探索从“单轮对话”转向“长程任务”的评测机制,研究如何量化 Agent 的记忆一致性与环境感知力。 2、高价值方案产出: ①设计并构建能反映用户体感的评测集,不仅关注 通过率,更深入拆解用户在交互过程中的使用体验。 ②建立 Agent 错误归因体系,针对 Agent 陷入死循环、幻觉指令、工具调用失败等典型场景进行深度诊断。 3、未来形态探索: ①跟踪前沿 Agent 发展,研究在多智能体协同、自主进化等未来形态下的 Agent 形态和相应的评测基准。 ②利用 LLM/Agent-as-a-Judge 的方式,提升自动化评测的准确性与效率。

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

本课题探索大模型垂直领域知识高效增强方法,包括数据策略、训练策略以及scaling law友好的训练方法,打造适配实际应用所需的基座能力。研究内容包括但不限于: 1) 大模型基座知识能力增强,通过大规模continue pretrain打造生活服务领域基座,赋能美团各类大模型应用场景。 2)探索预训练增强阶段的大规模高质量数据自动合成、Scaling Law、长链条复杂推理反思能力增强。 3)建设生活服务chat模型与智能体,通过强化学习等方式增强模型推理反思、复杂指令遵循、高情商交互等能力,支撑大模型在生活服务领域的应用。

更新于 2025-05-23北京|上海
logo of meituan
实习核心本地商业-基

Post-training是联结大模型通用知识和人类偏好的桥梁,在规范知识输出、提升推理能力、对齐人类偏好等方面起到了关键作用。本课题专注于大模型Post-training相关前沿算法研究,包括但不限于: 1)训练机制设计和优化:包括数据建设、指令微调,人类偏好和安全对齐,奖励模型、强化学习及效果评估等方向,优化模型文本创作、逻辑推理、指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性。 2)Post-training前沿研究:面向下一代推理基座的架构设计,test-time compute训练范式,思维链学习,多智能体和自博弈强化学习,提升模型的复杂任务处理能力和智能水平。

更新于 2025-05-23北京|上海