美团【基座大模型北斗实习】下一代智能体系统与智能体自进化/持续学习能力研究

实习兼职核心本地商业-基础研发平台2026-04-07地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机、人工智能、自动化、数学、物理等相关专业在读； 
2、在强化学习、文本 / 多模态大模型训练、Agent、世界模型等一个或多个领域有较深入的研究和实践经验者； 
3、好奇心驱…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：下一代智能体系统的构建作为 2026 年进一步实现 AGI 的发展重点，claw 的火爆也揭示了这里的丰富潜力。我们认为，训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决的能力。对于启发下一代智能体系统构建的任务，我们主要拆解如下特点：
1、长程性 ：模型需要具备可靠地进行长周期任务执行的能力，让人不需要频繁 check，i.e.，模型可以自主稳定、目标导向地无人类监管运行 x 小时，且运行时间和任务完成度 / 任务完成量正相关。
2、系统性：模型需要能够原生地对高抽象层级的任务进行执行和拆解，不然模型只是终端工具，依然依赖大量的 human work 制订 workflow / pipeline，i.e.，模型可以通过单次运行解决人类需要工作 y 小时的任务。
3、探索性 & 成长性：可以预期模型具备在合适的时机自发进行有意义的探索，并以恰当的可掌握、高信息密度的形态进行增量信息的提取、构建与维护的能力，并充分利用这样的反复、多次的自监督探索所带来的自进化 / 自迭代 / 持续学习潜力。
4、多样性 & 鲁棒性：模型需要可以在复杂、多样、跨模态的任务域内做功，在高度分化的真实、可能带噪声的全模态环境下处理高度分化的任务。

具体的，我们关注如下研究目标：
1、通过 Large Scale RL Scaling 等手段，训练智能体系统能够在多样化、有噪声的真实、全模态环境下，支持多样化的 Tools、Skills、Subagents 的稳定、正确、综合、可插拔式灵活使用，并能在一定限度内进行环境的修复与可靠改造。
2、探索在易于模型理解使用的前提下，训练智能体系统以更高信息密度的形态构建、维护和利用 memory，使模型能主动在重复性任务或封闭任务域中总结、提炼认知与经验，并进行有效复用，达到不断自进化 / 自迭代 / 持续学习的效果。
3、训练智能体系统的系统性长程任务高效处理能力，可以自主进行合理的任务拆解、分工；探索通过 agent swarm 或其他先进的 multi-agent system 进行系统性长程任务的并行执行和提效。
4、探索多模态推理和多模态环境交互的范式，并基于此进行增强智能体系统在复杂全模态环境下的任务完成能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

强化学习+

还有更多 •••

登录查看完整学习资料

相关职位

【基座大模型北斗实习】下一代Agent前沿技术研究

实习核心本地商业-基

简介：参与下一代 Agent 方向的前沿研究，可根据个人背景和研究兴趣选择以下方向之一深入推进： 1、更聪明：模型训练与推理，通过 Agentic RL、自适应推理等技术，让 Agent 真正具备复杂任务的长程规划、动态工具调用与自我纠错能力——不只是执行，而是思考。 2、好复用：Skill 体系建设，探索 Skill 的表示、组织与调度机制，让能力像积木一样可组合、可进化，面对新任务不从零开始。 3、低成本：Agent 框架优化，攻克推理成本控制、上下文治理与长期记忆等核心难题，让Agent 也能低成本规模化落地。 4、能应用：C 端 Agent 产品，用 Agent 重新定义人与信息的连接方式，从 0 到 1 探索 C 端 Agent 社区等产品。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】下一代大模型训练范式研究

实习核心本地商业-基

简介：探索下一代大模型训练范式，从模型结构、训练策略、数据策略、算力利用率等角度切入，打造具有更强能力和更高潜力的基座模型 1、设计更高效的模型结构，提高给定数据量、计算量、硬件资源、输出序列长度等约束下的模型能力，如长序列能力、记忆能力等。 2、探索更科学和前沿的训练策略，对影响training dynamic的关键变量（如学习率、batchsize、初始化等）形成更科学的认知，探索diffusion LLM，test-time scaling等技术。 3、研究模型结构和数据的耦合关系，优化分阶段训练范式。 4、结合MLsys解决大规模训练中遇到的卡点问题，实现算法和工程联合设计。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】基座大模型-Coding方向

实习核心本地商业-基

简介：Coding是当前 AI 技术落地最快、商业价值最大的方向之一。从代码补全到自主修复 GitHub Issue、到端到端软件工程自动化，大模型 Coding 能力的突破正在重塑整个软件开发范式。我们正在构建下一代具有强大代码生成与自主 Agent 能力的基座模型，打造可在真实工程环境中独立运作的 AI 开发者。岗位职责 1、负责基座大模型在代码生成、代码理解、代码 debug 等方向的能力研究与提升，提升模型在Coding任务中的 Planning、长上下文理解等核心能力。 2、探索模型在 repo 级代码理解、跨文件修改、自主 debug 等复杂任务上的能力边界。 3、参与 Post-training（SFT / RL/ PRM）等 Alignment 方法在 Coding 场景的研究与落地。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】Auto Research & Development Agent研究

实习核心本地商业-基

简介：研发下一代自动化研究智能体系统，专注于提升模型在长周期、高价值复杂任务中的自主执行能力，减少对人类指导的依赖。 1、自动化研究场景下的大模型能力建设，提升模型在复杂任务分解、长程推理、研究规划、工具使用、代码生成与执行、证据整合与研究写作等方面的能力。 2、长程任务中的上下文组织与记忆管理，设计优化 context scaling、context compression、memory selection、状态追踪与长期依赖建模，提升模型在复杂研究任务中的上下文利用效率与稳定性。 3、自主研究任务相关环境与自动实验闭环建设，构建 search、browser、retrieval、code execution、verifier 等训练与评测环境，打通训练脚本迭代、实验编排、结果比对、版本保留/回滚与复现验证流程。 4、训练策略、数据配方与反馈信号设计，围绕 SFT、RLVR等方法，结合数据构造、数据清洗、超参数优化以及 outcome-level / process-level 信号设计，提升模型在开放研究任务中的完成率、事实正确性和稳定性。 5、面向真实 research 任务的评测体系与错误分析闭环建设，建立 benchmark、自动化评测指标，系统分析搜索遗漏、证据误判、上下文污染、推理漂移、错误归因与长链路失稳等问题，并推动针对性优化。

更新于 2026-04-03北京|上海