美团【大模型北斗实习】长周期人机协作能力探索和评测

实习兼职核心本地商业-基础研发平台2025-05-23地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1）熟悉大模型相关的推理、训练框架，有较强的工程实践能力和经验。
2）有一定的学术研究背景，对前沿技术保持…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

大模型的语言理解与生成能力标志着基于人类语言的人机交互接口接近成熟。通过agent框架拓展系统环境适应力，结合推理技术突破（如o1/R1）强化中枢决策能力，内外协同将加速实现长周期人机协作，提升生产力。本课题希望逐步实现长周期人机协作所需的大模型agent能力，并解决其中涉及的模型训练和评估问题。研究内容包括但不限于：
1）长周期人机协作所涉及的模型能力拆解。
2）针对长周期协作所涉及的具体能力构建agent框架。
3）基于能力拆解建设相关的评测评估方案。
4）通过模型微调等手段优化相应的模型能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

相关职位

【基座大模型北斗实习】下一代智能体系统与智能体自进化/持续学习能力研究

实习核心本地商业-基

简介：下一代智能体系统的构建作为 2026 年进一步实现 AGI 的发展重点，claw 的火爆也揭示了这里的丰富潜力。我们认为，训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决的能力。对于启发下一代智能体系统构建的任务，我们主要拆解如下特点： 1、长程性：模型需要具备可靠地进行长周期任务执行的能力，让人不需要频繁 check，i.e.，模型可以自主稳定、目标导向地无人类监管运行 x 小时，且运行时间和任务完成度 / 任务完成量正相关。 2、系统性：模型需要能够原生地对高抽象层级的任务进行执行和拆解，不然模型只是终端工具，依然依赖大量的 human work 制订 workflow / pipeline，i.e.，模型可以通过单次运行解决人类需要工作 y 小时的任务。 3、探索性 & 成长性：可以预期模型具备在合适的时机自发进行有意义的探索，并以恰当的可掌握、高信息密度的形态进行增量信息的提取、构建与维护的能力，并充分利用这样的反复、多次的自监督探索所带来的自进化 / 自迭代 / 持续学习潜力。 4、多样性 & 鲁棒性：模型需要可以在复杂、多样、跨模态的任务域内做功，在高度分化的真实、可能带噪声的全模态环境下处理高度分化的任务。具体的，我们关注如下研究目标： 1、通过 Large Scale RL Scaling 等手段，训练智能体系统能够在多样化、有噪声的真实、全模态环境下，支持多样化的 Tools、Skills、Subagents 的稳定、正确、综合、可插拔式灵活使用，并能在一定限度内进行环境的修复与可靠改造。 2、探索在易于模型理解使用的前提下，训练智能体系统以更高信息密度的形态构建、维护和利用 memory，使模型能主动在重复性任务或封闭任务域中总结、提炼认知与经验，并进行有效复用，达到不断自进化 / 自迭代 / 持续学习的效果。 3、训练智能体系统的系统性长程任务高效处理能力，可以自主进行合理的任务拆解、分工；探索通过 agent swarm 或其他先进的 multi-agent system 进行系统性长程任务的并行执行和提效。 4、探索多模态推理和多模态环境交互的范式，并基于此进行增强智能体系统在复杂全模态环境下的任务完成能力。

更新于 2026-04-07北京|上海

【北斗实习】广告大模型应用算法工程师-【广告创意生产】

实习核心本地商业-业

【课题说明】在广告场景中，优质精美的创意对用户的行为决策有显著正向影响，传统模式下商用级创意内容的制作门槛高、生产周期长，长尾商家通常难以负担其成本，而头腰部商家也难以做到个性化、高时效性的创意生产投放。本课题借助大模型的音、视、图、文等多模态理解、思考与生成能力，结合用户画像、商户/品特征、热点趋势等信息，探索实现低成本、个性化的商用级创意内容（如图文笔记、长视频）的生成技术。【建议研究方向】 1.多模态深度思考：设计与实现多模态深度思考方案，优化模型对多源异构信息进行抽取筛选、加工整合、衍生创作的能力，提升创意内容生成的质量与多样性。 2.开放问题的强化学习：针对无标准答案的开放问题（如笔记生成、剧本创作、素材选取等），设计与实现适配的奖励机制与策略，通过强化学习提升模型能力。 3.创意生产Agent：参考人工生产中的不同角色分工合作流程，设计与实现创意生产的多agent协作框架，并通过线上效果反馈机制，闭环提升生产的效率与质量。

更新于 2025-05-27北京

【基座大模型北斗实习】Agent 学习范式与长时程记忆研究

实习核心本地商业-基

简介：围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。 1、探索 Agent 的学习范式：online learning/自博弈/自进化：围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索，重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈，以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。 2、Agentic-native model 范式：扩散模型/世界模型/生成式规划：探索三类互补路径：其一，学习可供 Agent 调用的世界模型，用于预测状态转移、环境反馈与长期结果；其二，用扩散式或潜变量式生成机制，对动作序列、子目标或未来轨迹进行并行采样与迭代修正，提升长程规划能力；其三，把生成式规划与搜索/验证结合，通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划，把先想后做的能力落实到系统。 3、超长上下文与记忆：围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究，重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习，以及长上下文与显式记忆协同的系统设计，以支撑长时程规划、多轮任务连续性与个体化经验积累.

更新于 2026-04-03北京|上海

【大模型北斗实习】大语言模型预训练结构和策略

实习核心本地商业-基

探索下一代大模型预训练范式，从模型结构、训练策略、数据策略、算力利用率等角度切入，打造具有更强能力和更高潜力的基座模型。 1）设计更高效的模型结构，提高给定数据量、计算量、硬件型号、输出序列长度等约束下的模型能力，如长序列能力、记忆能力等。 2）探索更科学的训练策略，对影响training dynamic的关键变量（如学习率、batchsize、初始化等）形成更科学的认知，探索更适合大模型的optimizer等。 3）研究模型结构和数据的耦合关系，优化分阶段训练范式。 4）结合MLsys解决大规模训练中遇到的卡点问题，实现算法和工程联合设计。

更新于 2025-05-23北京|香港|上海