美团【大模型北斗实习】面向真实物理世界的大规模智能体研究（Agent In Real Life）

实习兼职核心本地商业-美团平台2025-05-23地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1）硕士及以上学历，计算机科学、人工智能或相关专业背景。
2）熟练掌握 Python，熟悉 PyTorch 或 TensorFlow 等深度学习框架。
3）扎实的 LLM 和 Agent 系统理论基础。
4）熟悉 RL 算法框架，具备将 RL 应用于 Agent 决策优化的实践经验。
5）具备设计复杂 Agent 系统架构的能力，包括记忆机制、规划模块、执行模块等核心组件。
加分项：
1）…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

随着 LLM 与 RL 技术的飞速发展，具备自主决策与执行能力的 Agent 系统成为 AI 领域的前沿研究方向。本课题聚焦于构建能够在真实物理世界（餐饮、购物、旅行规划等）复杂场景下自主运行的 Agent 系统，解决传统 AI 系统难以应对的多步骤规划、长期目标追踪、环境适应性等核心挑战。主要研究内容包括但不限于：
1）自主规划与决策：研究基于 LLM 的 CoT 等的复杂推理机制，使 Agent 能够自主分解并解决如"为一家四口安排一个周末出游计划，包括交通、住宿、餐饮和活动"等多步骤任务；开发能够在规划失败时进行自我修正和重新规划的自适应决策框架，突破传统 Agent 在复杂场景下的规划瓶颈。
2）强化学习驱动的自主优化：应用前沿强化学习算法（如PPO、GRPO、RL）优化 Agent 的决策系统，通过用户反馈和任务完成度构建复杂奖励函数；研究如何在高维状态空间和长期依赖问题中有效进行奖励分配，解决真实复杂物理场景中典型的延迟反馈和稀疏奖励挑战。
3）多 Agent 协作与分布式决策：设计基于角色分工的多 Agent 协作框架，使不同专长的 Agent 能够协同解决复杂任务，如"美食专家 Agent 负责菜品推荐，规划 Agent 负责整体行程安排"等；研究 Agent 间的通信协议和共识机制，解决分布式决策中的冲突协调和资源分配问题。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

PyTorch+

TensorFlow+

深度学习+

大模型+

AI agent+

还有更多 •••

登录查看完整学习资料

相关职位

【大模型北斗实习】推理决策智能体技术研究

实习核心本地商业-基

本课题聚焦大模型在复杂场景下的高阶认知能力突破，面向真实需求构建具备自主推理与协作进化能力的智能系统。通过前沿算法创新与工业级场景验证，助力研究者攻克高度自适应智能体架构设计、复杂决策优化等关键技术难题。核心研究内容包括： 1）构建复杂情境推理框架：开发能够处理模糊信息、进行合理假设并自主验证的决策系统，突破不完全数据下的逻辑闭环能力。 2）建立多智能体协作范式：研究分层任务拆解机制与分布式决策架构，实现跨智能体的动态协调与效能优化。 3）设计任务驱动进化机制：结合强化学习与反思模型，持续提升智能体在业务场景中的自主适应与问题排查能力。 4）开发模型可解释性框架：创新推理过程可视化技术，建立决策依据追溯机制，显著降低模型幻觉风险。 5）探索人机协同新形态：构建具备环境感知与交互进化能力的智能助手，推动大模型在真实场景的可靠落地。

更新于 2025-05-23北京|上海

【大模型北斗实习】Post-training 前沿算法研究

实习核心本地商业-基

Post-training是联结大模型通用知识和人类偏好的桥梁，在规范知识输出、提升推理能力、对齐人类偏好等方面起到了关键作用。本课题专注于大模型Post-training相关前沿算法研究，包括但不限于： 1）训练机制设计和优化：包括数据建设、指令微调，人类偏好和安全对齐，奖励模型、强化学习及效果评估等方向，优化模型文本创作、逻辑推理、指令遵循、代码生成、工具调用等能力，提升模型可控性和安全性。 2）Post-training前沿研究：面向下一代推理基座的架构设计，test-time compute训练范式，思维链学习，多智能体和自博弈强化学习，提升模型的复杂任务处理能力和智能水平。

更新于 2025-05-23北京|上海

【基座大模型北斗实习】Agentic Foundation Model 学习范式前沿研究

实习核心本地商业-基

随着大语言模型从通用问答走向复杂任务执行，Agent能力正成为模型演进的关键方向。传统大模型虽具备海量知识，但面对复杂任务的自主规划、工具调用及长期记忆管理时，往往难以应对。本课题旨在探索Midtrain这一关键阶段，推动通用基座模型向原生Agentic Foundation Model演进，为构建下一代自主智能体提供坚实的底座支持。 1. 大规模高质量数据体系与合成数据建设数据体系构建：建设 Trillion 级别的大规模跨模态数据处理与合成链路。负责从训练数据获取到配比建模的全流程优化合成方法演进：探索大规模合成数据 (Synthetic Data) 与自蒸馏 (Self-distillation) 技术，制定合成数据应用策略理论探索：研究Data Scaling Laws，解决数据扩展中的模型坍塌（Model Collapse）与多样性瓶颈问题，通过课程学习（Curriculum Learning）等训练策略，显著优化Token/FLOPs转化效率 2. 长上下文 (Long Context) 与高效架构演进长窗口突破: 持续Scaling Up模型的Context Length，优化超长上下文机制，重点提升LongCat基座模型在长上下文上的表现架构优化: 探索并验证MoE（混合专家）、稀疏注意力（Sparse Attention）、线性注意力等模型结构；结合剪枝与稀疏化技术，协同优化训练与推理效率，提升超长上下文场景下的效率上下文管理: 探索逐轮次和跨多轮次的上下文管理方法，并建立对应评测体系，从而减少冗余信息堆叠，实现高效思考和性能提升 3. 多模态能力融合与 Agent 赋能模态融合：探索多模态预训练新范式，突破模态融合瓶颈。利用多模态扩展定律指导数据与训练方案，提升模型在多模态交互场景下的原生能力复杂场景落地：面向 Agent、具身智能等前沿场景，提升模型的多模态指令遵循与复杂任务规划能力 4. 下一代训练范式与前沿技术探索自进化机制：协同上下游团队，探索模型自进化（Self-evolution）机制，研究RL在Mid-training阶段的应用能力扩展：研究推理阶段扩展（Test-time Scaling）及全模态链式思维（Omni-modal CoT），推动模型从单纯的“知识记忆”向“深度推理与问题解决”演进

更新于 2026-04-07北京|上海

【北斗实习】大模型应用算法工程师-【医药健康AI助手】

实习核心本地商业-业

【课题说明】面向C端用户的医药健康AI助手项目旨在重塑用户未来的看病范式，给用户提供AI问诊、对症找药、药品问答、医疗科普等多元化核心能力，在用户诊前、诊中、诊后的关键环节提供专业的医疗决策支持，从而促进线上看病一体化链路的打通，率先形成线上便捷+专业的看病入口。【建议研究方向】 1.医药Agent技术架构设计：针对问病、问药、科普等场景分别建设专业的子Agent能力，并优化多Agent之间的协作逻辑，满足用户灵活的多轮对话交互需求。 2.模型自动化评测：从医学专业性和用户体验维度构建多维度benchmark，并探索Agent各能力项的Auto-Eval做法，提升模型评测效率和结果可靠性。 3.模型后训练技术：探索合成数据技术方案来快速积累高质量医疗训练数据，并通过SFT、强化学习等手段持续提升模型在医学问答、病情采集、疾病诊断、药品推荐等关键任务上的表现和泛化能力。

更新于 2025-05-27北京