美团【基座大模型北斗实习】Agent 学习范式与长时程记忆研究

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、计算机、人工智能、数学、统计学、电子信息或相关专业本科高年级、硕士或博士在读；
2、具备扎实的机器学习基础，对以下至少一个方向有较深入理解： - 大语言模型与后训练 - 强化学习 / Online learning / Bandit / Sequence decision making - Agent / Tool use / Planning / Reasoning - 记忆增强模型 / RAG / 长上下文建模 …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。
1、探索 Agent 的学习范式：online learning/自博弈/自进化：围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索，重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈，以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。
2、Agentic-native model 范式：扩散模型/世界模型/生成式规划：探索三类互补路径：其一，学习可供 Agent 调用的世界模型，用于预测状态转移、环境反馈与长期结果；其二，用扩散式或潜变量式生成机制，对动作序列、子目标或未来轨迹进行并行采样与迭代修正，提升长程规划能力；其三，把生成式规划与搜索/验证结合，通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划，把先想后做的能力落实到系统。
3、超长上下文与记忆：围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究，重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习，以及长上下文与显式记忆协同的系统设计，以支撑长时程规划、多轮任务连续性与个体化经验积累.

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

强化学习+

AI agent+

还有更多 •••

登录查看完整学习资料

相关职位

【基座大模型北斗实习】下一代Agent前沿技术研究

实习核心本地商业-基

简介：参与下一代 Agent 方向的前沿研究，可根据个人背景和研究兴趣选择以下方向之一深入推进： 1、更聪明：模型训练与推理，通过 Agentic RL、自适应推理等技术，让 Agent 真正具备复杂任务的长程规划、动态工具调用与自我纠错能力——不只是执行，而是思考。 2、好复用：Skill 体系建设，探索 Skill 的表示、组织与调度机制，让能力像积木一样可组合、可进化，面对新任务不从零开始。 3、低成本：Agent 框架优化，攻克推理成本控制、上下文治理与长期记忆等核心难题，让Agent 也能低成本规模化落地。 4、能应用：C 端 Agent 产品，用 Agent 重新定义人与信息的连接方式，从 0 到 1 探索 C 端 Agent 社区等产品。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】复杂Agent应用技术研究

实习核心本地商业-基

简介：探索下一代 Agent-Native 基础设施。方向覆盖数据计算与商业分析、精准营销与广告投放、个人助理与智能服务三大场景，致力于用 AI Agent 重构人与数据、人与服务的交互方式。【技术方向】 1、DataAgent 核心基建：攻坚复杂长周期任务的调度架构，解决大规模数据流转下的上下文治理、长期记忆与状态流控难题。 2、BA 场景工具链：构建高扩展性数据处理 Skill 体系与安全高效的代码执行沙盒，支持 Agent 智能调度高并发数据流处理工具。 3、精准营销 Agent：基于海量用户行为数据的宏观统计与微观推理，探索精细化需求理解与大小模型协同的高效系统设计。 4、Skill 体系与模型优化：探索 Skill 的表示、调度与自进化机制；推进 Agentic RL、自适应推理等模型训练与调优工作。 5、智能服务新范式：建立 C 端个人 Agent 与 B 端服务 Agent 的连接，研究智能体架构优化、推理成本控制与长期记忆提升。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】Auto Research & Development Agent研究

实习核心本地商业-基

简介：研发下一代自动化研究智能体系统，专注于提升模型在长周期、高价值复杂任务中的自主执行能力，减少对人类指导的依赖。 1、自动化研究场景下的大模型能力建设，提升模型在复杂任务分解、长程推理、研究规划、工具使用、代码生成与执行、证据整合与研究写作等方面的能力。 2、长程任务中的上下文组织与记忆管理，设计优化 context scaling、context compression、memory selection、状态追踪与长期依赖建模，提升模型在复杂研究任务中的上下文利用效率与稳定性。 3、自主研究任务相关环境与自动实验闭环建设，构建 search、browser、retrieval、code execution、verifier 等训练与评测环境，打通训练脚本迭代、实验编排、结果比对、版本保留/回滚与复现验证流程。 4、训练策略、数据配方与反馈信号设计，围绕 SFT、RLVR等方法，结合数据构造、数据清洗、超参数优化以及 outcome-level / process-level 信号设计，提升模型在开放研究任务中的完成率、事实正确性和稳定性。 5、面向真实 research 任务的评测体系与错误分析闭环建设，建立 benchmark、自动化评测指标，系统分析搜索遗漏、证据误判、上下文污染、推理漂移、错误归因与长链路失稳等问题，并推动针对性优化。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】全模态Computer Use Agent前沿研究

实习核心本地商业-基

简介：下一代智能体将超越纯文本交互，在屏幕、软件乃至物理世界中运作——这要求模型具备将图像、视频、音频、文本等多模态感知与可靠的实时行动能力统一融合的底层能力。本课题聚焦于将全模态（Omni-modal）理解能力深度融入Computer Use Agent（CUA），构建"边看、边听、边想、边做"的原生全模态智能体系统，推动智能体从单一文本工具调用走向真实数字环境中的多模态自主操作。具体地，我们关注如下研究方向： 1、全模态感知与GUI交互的统一建模：探索将视觉（屏幕截图、视频流）、听觉（语音指令、系统音频）、文本等多模态信号在统一架构下进行融合理解，使Agent能够基于多模态上下文进行精准的GUI元素定位、状态识别与操作决策，提升在复杂真实桌面/移动端环境下的任务完成能力。 2、长时序跨应用任务规划与执行：研究Agent在跨小时级、多应用协同的长程数字任务中的持续意图保持、动态重规划与自主纠错能力，解决当前CUA在长交互链中出现的上下文丢失、计划漂移与误差累积问题，使Agent能够自主稳定地完成复杂的端到端工作流。 3、实时流式感知与连续决策：从"处理静态截图"升级到"实时屏幕流+音频流"的连续感知模式，探索Agent在动态变化的数字环境中进行实时状态追踪与即时响应的能力，支撑直播监控、实时协作等需要持续交互的场景。 4、全模态Agent的高效学习范式：探索面向全模态CUA场景的强化学习训练方法，包括但不限于：多模态环境下的奖励建模与过程奖励设计、GUI交互轨迹的大规模RL Scaling、基于环境反馈的自进化与持续学习机制，以及多模态推理与行动的联合优化策略。

更新于 2026-04-03北京|上海|深圳