logo of meituan

美团【基座大模型北斗实习】Agent 学习范式与长时程记忆研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1、计算机、人工智能、数学、统计学、电子信息或相关专业本科高年级、硕士或博士在读;
2、具备扎实的机器学习基础,对以下至少一个方向有较深入理解: - 大语言模型与后训练 - 强化学习 / Online learning / Bandit / Sequence decision making - Agent / Tool use / Planning / Reasoning - 记忆增强模型 / RAG / 长上下文建模 …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。
1、探索 Agent 的学习范式:online learning/自博弈/自进化:围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索,重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈,以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。
2、Agentic-native model 范式:扩散模型/世界模型/生成式规划:探索三类互补路径:其一,学习可供 Agent 调用的世界模型,用于预测状态转移、环境反馈与长期结果;其二,用扩散式或潜变量式生成机制,对动作序列、子目标或未来轨迹进行并行采样与迭代修正,提升长程规划能力;其三,把生成式规划与搜索/验证结合,通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划,把先想后做的能力落实到系统。
3、超长上下文与记忆:围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究,重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习,以及长上下文与显式记忆协同的系统设计,以支撑长时程规划、多轮任务连续性与个体化经验积累.
包括英文材料
机器学习+
强化学习+
AI agent+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

随着大语言模型从通用问答走向复杂任务执行,Agent能力正成为模型演进的关键方向。传统大模型虽具备海量知识,但面对复杂任务的自主规划、工具调用及长期记忆管理时,往往难以应对。本课题旨在探索Midtrain这一关键阶段,推动通用基座模型向原生Agentic Foundation Model演进,为构建下一代自主智能体提供坚实的底座支持。 1. 大规模高质量数据体系与合成数据建设 数据体系构建:建设 Trillion 级别的大规模跨模态数据处理与合成链路。负责从训练数据获取到配比建模的全流程优化 合成方法演进:探索大规模合成数据 (Synthetic Data) 与自蒸馏 (Self-distillation) 技术,制定合成数据应用策略 理论探索:研究Data Scaling Laws,解决数据扩展中的模型坍塌(Model Collapse)与多样性瓶颈问题,通过课程学习(Curriculum Learning)等训练策略,显著优化Token/FLOPs转化效率 2. 长上下文 (Long Context) 与高效架构演进 长窗口突破: 持续Scaling Up模型的Context Length,优化超长上下文机制,重点提升LongCat基座模型在长上下文上的表现 架构优化: 探索并验证MoE(混合专家)、稀疏注意力(Sparse Attention)、线性注意力等模型结构;结合剪枝与稀疏化技术,协同优化训练与推理效率,提升超长上下文场景下的效率 上下文管理: 探索逐轮次和跨多轮次的上下文管理方法,并建立对应评测体系,从而减少冗余信息堆叠,实现高效思考和性能提升 3. 多模态能力融合与 Agent 赋能 模态融合:探索多模态预训练新范式,突破模态融合瓶颈。利用多模态扩展定律指导数据与训练方案,提升模型在多模态交互场景下的原生能力 复杂场景落地:面向 Agent、具身智能等前沿场景,提升模型的多模态指令遵循与复杂任务规划能力 4. 下一代训练范式与前沿技术探索 自进化机制:协同上下游团队,探索模型自进化(Self-evolution)机制,研究RL在Mid-training阶段的应用 能力扩展:研究推理阶段扩展(Test-time Scaling)及全模态链式思维(Omni-modal CoT),推动模型从单纯的“知识记忆”向“深度推理与问题解决”演进

更新于 2026-04-07北京|上海
logo of meituan
实习核心本地商业-基

简介:下一代智能体系统的构建作为 2026 年进一步实现 AGI 的发展重点,claw 的火爆也揭示了这里的丰富潜力。我们认为,训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决的能力。对于启发下一代智能体系统构建的任务,我们主要拆解如下特点: 1、长程性 :模型需要具备可靠地进行长周期任务执行的能力,让人不需要频繁 check,i.e.,模型可以自主稳定、目标导向地无人类监管运行 x 小时,且运行时间和任务完成度 / 任务完成量正相关。 2、系统性:模型需要能够原生地对高抽象层级的任务进行执行和拆解,不然模型只是终端工具,依然依赖大量的 human work 制订 workflow / pipeline,i.e.,模型可以通过单次运行解决人类需要工作 y 小时的任务。 3、探索性 & 成长性:可以预期模型具备在合适的时机自发进行有意义的探索,并以恰当的可掌握、高信息密度的形态进行增量信息的提取、构建与维护的能力,并充分利用这样的反复、多次的自监督探索所带来的自进化 / 自迭代 / 持续学习潜力。 4、多样性 & 鲁棒性:模型需要可以在复杂、多样、跨模态的任务域内做功,在高度分化的真实、可能带噪声的全模态环境下处理高度分化的任务。 具体的,我们关注如下研究目标: 1、通过 Large Scale RL Scaling 等手段,训练智能体系统能够在多样化、有噪声的真实、全模态环境下,支持多样化的 Tools、Skills、Subagents 的稳定、正确、综合、可插拔式灵活使用,并能在一定限度内进行环境的修复与可靠改造。 2、探索在易于模型理解使用的前提下,训练智能体系统以更高信息密度的形态构建、维护和利用 memory,使模型能主动在重复性任务或封闭任务域中总结、提炼认知与经验,并进行有效复用,达到不断自进化 / 自迭代 / 持续学习的效果。 3、训练智能体系统的系统性长程任务高效处理能力,可以自主进行合理的任务拆解、分工;探索通过 agent swarm 或其他先进的 multi-agent system 进行系统性长程任务的并行执行和提效。 4、探索多模态推理和多模态环境交互的范式,并基于此进行增强智能体系统在复杂全模态环境下的任务完成能力。

更新于 2026-04-07北京|上海
logo of meituan
实习核心本地商业-基

简介:随着 OpenClaw、Claude Code 等 Agent 进入实战领域,传统的静态评测已无法衡量 Agent 的长程规划、自主纠错与真实环境交互能力。我们寻找对 Agent 评测范式有独特见解的同学,共同定义下一代 Agent 的考卷。你将参与的工作有: 1、评测范式研究与落地: ①针对 OpenClaw 及 Claude Code 等主流 Agent,构建基于真实生产力场景,如自动化办公、复杂代码重构、多工具协同等的动态评测沙盒环境。 ②探索从“单轮对话”转向“长程任务”的评测机制,研究如何量化 Agent 的记忆一致性与环境感知力。 2、高价值方案产出: ①设计并构建能反映用户体感的评测集,不仅关注 通过率,更深入拆解用户在交互过程中的使用体验。 ②建立 Agent 错误归因体系,针对 Agent 陷入死循环、幻觉指令、工具调用失败等典型场景进行深度诊断。 3、未来形态探索: ①跟踪前沿 Agent 发展,研究在多智能体协同、自主进化等未来形态下的 Agent 形态和相应的评测基准。 ②利用 LLM/Agent-as-a-Judge 的方式,提升自动化评测的准确性与效率。

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

简介:我们认为,训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决。这里,环境向真实物理世界演化是一个可以预见的方向,从而依赖模型在动态的、存在时序自变化的多模态环境下的探索与交互能力。为了激发这样的能力,一方面,我们认为游戏是一个高度可验证、同时充满训练潜力的场景;另一方面,如 minecraft / 原神 以至更复杂的开放世界环境更可以作为智能体系统在进行真实物理世界训练之前的一个练兵场。 具体的,我们关注如下研究目标: 1、探索通过在高度多样、丰富的游戏任务下进行大规模智能体训练,提高模型面对一般多模态场景的交互与融合模态推理能力。 2、探索趋向于真实物理世界的开放世界建模,为模型在真实物理世界下的训练和模拟训练提供坚实基础。 3、训练模型在动态、时序变化的开放世界下,自主进行感知、观察、探索、交互、任务推进的能力,并预期这样的能力作为真实物理世界训练的坚实前置基础,可以 minimize 所需的高成本真实物理世界训练量。

更新于 2026-04-03北京|上海