美团【基座大模型北斗实习】智能体系统的通用游戏能力与开放世界探索能力研究

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

岗位要求：
1、本科及以上学历，计算机、人工智能、自动化、数学、物理等相关专业在读； 
2、在强化学习、文本/多模态大模型训练、Agent 、世界模型等一个或多个领域有较深入的研究和实践经验者； 
3、好奇…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：我们认为，训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决。这里，环境向真实物理世界演化是一个可以预见的方向，从而依赖模型在动态的、存在时序自变化的多模态环境下的探索与交互能力。为了激发这样的能力，一方面，我们认为游戏是一个高度可验证、同时充满训练潜力的场景；另一方面，如 minecraft / 原神 以至更复杂的开放世界环境更可以作为智能体系统在进行真实物理世界训练之前的一个练兵场。

具体的，我们关注如下研究目标：
1、探索通过在高度多样、丰富的游戏任务下进行大规模智能体训练，提高模型面对一般多模态场景的交互与融合模态推理能力。
2、探索趋向于真实物理世界的开放世界建模，为模型在真实物理世界下的训练和模拟训练提供坚实基础。
3、训练模型在动态、时序变化的开放世界下，自主进行感知、观察、探索、交互、任务推进的能力，并预期这样的能力作为真实物理世界训练的坚实前置基础，可以 minimize 所需的高成本真实物理世界训练量。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

强化学习+

还有更多 •••

登录查看完整学习资料

相关职位

【基座大模型北斗实习】下一代智能体系统与智能体自进化/持续学习能力研究

实习核心本地商业-基

简介：下一代智能体系统的构建作为 2026 年进一步实现 AGI 的发展重点，claw 的火爆也揭示了这里的丰富潜力。我们认为，训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决的能力。对于启发下一代智能体系统构建的任务，我们主要拆解如下特点： 1、长程性：模型需要具备可靠地进行长周期任务执行的能力，让人不需要频繁 check，i.e.，模型可以自主稳定、目标导向地无人类监管运行 x 小时，且运行时间和任务完成度 / 任务完成量正相关。 2、系统性：模型需要能够原生地对高抽象层级的任务进行执行和拆解，不然模型只是终端工具，依然依赖大量的 human work 制订 workflow / pipeline，i.e.，模型可以通过单次运行解决人类需要工作 y 小时的任务。 3、探索性 & 成长性：可以预期模型具备在合适的时机自发进行有意义的探索，并以恰当的可掌握、高信息密度的形态进行增量信息的提取、构建与维护的能力，并充分利用这样的反复、多次的自监督探索所带来的自进化 / 自迭代 / 持续学习潜力。 4、多样性 & 鲁棒性：模型需要可以在复杂、多样、跨模态的任务域内做功，在高度分化的真实、可能带噪声的全模态环境下处理高度分化的任务。具体的，我们关注如下研究目标： 1、通过 Large Scale RL Scaling 等手段，训练智能体系统能够在多样化、有噪声的真实、全模态环境下，支持多样化的 Tools、Skills、Subagents 的稳定、正确、综合、可插拔式灵活使用，并能在一定限度内进行环境的修复与可靠改造。 2、探索在易于模型理解使用的前提下，训练智能体系统以更高信息密度的形态构建、维护和利用 memory，使模型能主动在重复性任务或封闭任务域中总结、提炼认知与经验，并进行有效复用，达到不断自进化 / 自迭代 / 持续学习的效果。 3、训练智能体系统的系统性长程任务高效处理能力，可以自主进行合理的任务拆解、分工；探索通过 agent swarm 或其他先进的 multi-agent system 进行系统性长程任务的并行执行和提效。 4、探索多模态推理和多模态环境交互的范式，并基于此进行增强智能体系统在复杂全模态环境下的任务完成能力。

更新于 2026-04-07北京|上海

【基座大模型北斗实习】开放域智能体交互与自动化评测演进机制研究

实习核心本地商业-基

简介：随着 OpenClaw、Claude Code 等 Agent 进入实战领域，传统的静态评测已无法衡量 Agent 的长程规划、自主纠错与真实环境交互能力。我们寻找对 Agent 评测范式有独特见解的同学，共同定义下一代 Agent 的考卷。你将参与的工作有： 1、评测范式研究与落地： ①针对 OpenClaw 及 Claude Code 等主流 Agent，构建基于真实生产力场景，如自动化办公、复杂代码重构、多工具协同等的动态评测沙盒环境。 ②探索从“单轮对话”转向“长程任务”的评测机制，研究如何量化 Agent 的记忆一致性与环境感知力。 2、高价值方案产出： ①设计并构建能反映用户体感的评测集，不仅关注通过率，更深入拆解用户在交互过程中的使用体验。 ②建立 Agent 错误归因体系，针对 Agent 陷入死循环、幻觉指令、工具调用失败等典型场景进行深度诊断。 3、未来形态探索： ①跟踪前沿 Agent 发展，研究在多智能体协同、自主进化等未来形态下的 Agent 形态和相应的评测基准。 ②利用 LLM/Agent-as-a-Judge 的方式，提升自动化评测的准确性与效率。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】面向真实世界的全模态搜索智能体前沿研究

实习核心本地商业-基

简介：本课题主要聚焦于真实世界中的搜索智能体遇到的实际问题，分别从基础指令遵循、模态扩展、交互形式和学习范式等四个方面进行研究： 1、智能体复杂指令遵循：大模型目前已经从实验室走向实际的生产环境，从关注Benchmark指标转为重视实际使用体验。真实使用场景以Train-Free + System Prompt的方式居多，其中System Prompt通常具有指令复杂、组合方式多样、变动频繁等特点。该方向主要研究内容有两点：一是大模型对于工具/Skill 调用的指令遵循能力；二是大模型对于复杂总结指令的遵循能力。 2、全模态深度搜索智能体：最真实的物理世界都是全模态的，所以搜索智能体不仅在输入上需要支持全模态，而且在整个搜索过程以及最后的结果呈现上都需要支持全模态。该方向主要研究怎么将已经比较成熟的搜索智能体从单一的文本模态扩展成同时支持文本、语音、图像等多种形式的全模态智能体，要解决全模态规划、深度推理、上下文管理和记忆带来的挑战。 3、主动交互深度研究智能体：智能体时代，所有的智能体都应该是一个具有自主意识的个体，能够主动提供服务。而当前的深度研究智能体，还处于被动给人提供信息的状态，基本不具有自主意识。该方向主要研究怎么让深度研究智能体具有自主意识、能够主动挖掘人类的真实意图、主动引导人类进行多轮互动，最终给人伙伴式体验并提升人的认知。 4、智能体学习范式：当前智能体学习范式以RLVR为主，但是RLVR具有奖励稀疏、适用范围有限、训练不稳定和训练成本高等缺点。该方向主要研究方向包括但不限于：熵机制研究、过程奖励模型（PRM）、开放问题rubrics-based RL、credit assignment、Thinking/Tool Call Budget等。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】面向真实世界长程开放任务的智能体研究

实习核心本地商业-基

简介：真实世界中智能体应对长周期、多步骤、开放式的任务目标仍存在瓶颈，如多日旅行规划、专业领域深度研究等任务均呈现长交互轮次、多依赖子任务、全局约束严格的特征，当前智能体易出现上下文丢失、计划漂移、误差累积等问题，难以支撑超长轮次、超长时间的超长程任务执行。本课题研究方向包括但是不限于： 1、长程任务鲁棒规划：结合思维链（CoT）、思维树（ToT）等方法，实现复杂目标的可执行子任务拆解，兼顾子任务依赖关系与全局时间/成本约束；研究基于实时环境反馈的重规划机制，解决“模拟漂移”导致的计划与现实脱节问题，提升规划鲁棒性；设计高效的上下文管理与记忆压缩技术，避免长交互过程中关键信息遗忘，支撑超长序列任务的稳定执行。 2、开放环境动态适应：探索解决真实世界中目标模糊、环境多变、突发干扰下的任务持续执行难题。 3、高效学习范式：研究真实世界开放任务reward以及过程奖励设计方法，为长程任务中间步骤提供有效反馈，解决奖励稀疏问题；研究开放环境下的持续学习方法，避免“灾难性遗忘”，增强智能体在新场景、新任务中的泛化能力。

更新于 2026-04-03北京|上海