美团【北斗】基座大模型算法研究员（强化学习）

校招全职核心本地商业-基础研发平台2025-05-23地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1.具备扎实的机器学习基础和强悍的编码能力，熟悉Python、C++ 等至少一门编程语言。
2.熟悉Pytorch、 Megatron、DeepSpeed、VeRL 等开源框架。
3.熟悉主流大模型以及Agent强化训练Pipe…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.研究下一代大模型强化训练范式，持续扩展强化学习，提升大模型在复杂推理和端到端Agent任务（如代码、STEM、Agentic Tool Use、Deep Research、自动软件开发等任务）上的表现。
2.设计并实现强化训练Pipeline，包括Agent环境和任务、奖励信号、训练策略等。
3.研究大模型强化训练相关的关键算法问题，包括稀疏奖励、课程学习、强化算法（如PPO/GRPO）等。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

Python+

C+++

PyTorch+

Megatron+

DeepSpeed+

还有更多 •••

登录查看完整学习资料

相关职位

【北斗】基座大模型算法研究员（数据与训练/后训练）

校招核心本地商业-基

数据与训练方向： 1.大模型数据体系建设：构建多语言和多模态的数据处理流程和实验链路，优化数据的筛选与配比策略，探索动态数据调整、多阶段训练和课程学习等方法提升数据质量和多样性，优化大模型的训练效果。 2.合成数据探索：探索大规模合成数据方法，应用于复杂任务、推理、代码和多模态等场景。制定合成数据在预训练、强化学习等不同训练阶段的应用策略，并深入研究数据扩展规模定律、数据多样性和模型坍塌等基础问题，推动数据驱动的性能突破。 3.多模态学习与推理：探索多模态预训练的新范式，突破模态融合瓶颈。具体包括实现多模态能力的早期融合、理解与生成的统一建模，研究多模态扩展定律以指导数据与训练方案，扩展超长上下文机制以支持全模态场景等。同时，面向复杂的多模态推理与交互场景，探索多模态强化学习、多模态奖励模型、推理阶段扩展（test-time scaling）以及全模态链式思维（CoT）等方法，提升模型处理复杂任务和全模态交互的能力。 4.高效模型架构设计：设计高效的大模型架构以提升训练和推理效率。探索 MoE（混合专家）、稀疏注意力、线性注意力等高效模型结构，以及模型编辑与合并等技术，研发能够显著提升推理速度和资源利用率的新型模型架构。 5.推理效率与性能优化：推动算法与系统的协同优化，实现模型性能与效率的最大化平衡。基于对硬件计算潜力的深度挖掘，开发高效的模型推理方案和算法，包括模型压缩、剪枝、量化、稀疏化等，降低模型应用部署成本。后训练方向： 1.后训练数据与流程建设，从指令数据生产、合成、进化、配比等方面提升数据质量，优化指令微调、强化学习、奖励模型等训练pipeline，提升模型综合能力； 2.后训练关键能力建设，包括但不限于优化模型创意生成、多语言、逻辑推理、复杂指令遵循、代码生成、工具调用等能力，提升模型可控性和安全性，拓展模型能力边界； 3.面向准确性、多模信息、最优路径等方向，探索奖励模型的新范式，构建统一模型学习环境，实现模型的价值对齐和能力对齐； 4.面向推理规划能力、多智能体系统、模型自进化等方向，探索下一代强化学习算法，持续提升大模型的智能水平和在真实复杂场景效果； 5.前沿探索：动态推理计算优化（Test-time Compute Optimization）、多智能体协同进化架构、大规模强化学习系统优化等。

更新于 2025-05-23北京|上海

【北斗】基座大模型算法研究员（Reasoning）

校招核心本地商业-基

1.探索生成式模型的高级推理发生机制，提升大模型在复杂任务上的推理表现。包括但不限于RL scaling、Test time scaling等； 2.探索模型通过使用工具扩展能力边界，同复杂环境交互持续提升模型智能水平； 3.超大规模模型的强化学习性能优化，通过算法/工程的联合优化，极致加速模型训练和推理。

更新于 2025-05-23北京|上海

【北斗】基座大模型算法研究员（通用 Agent/搜索Agent/安全方向）

校招核心本地商业-基

通用Agent方向： 1.探索模型通过 RL Scaling 等方式使用成套工具解决复杂问题的行动和规划能力，包括 Human in the Loop 多轮交互下 Agent 基础建模的新方案、以及与复杂环境的交互学习能力； 2.探索模型在 Non-Rule Based Outcome 场景下利用复杂信息进行有效推理的范式，包括 Proactive Agent 的建模方案； 3.探索研究更多内在奖励的机制，从而激发模型主动学习和自我更新的能力； 4.探索构建长期记忆机制，为下一代高效的推理模型、长序列推理及建模提供基础。搜索Agent方向： 1.参与通用AI搜索中Agent的框架建设和算法优化，并能在实际业务场景进行落地； 2.探索指令微调、偏好对齐（RLHF/DPO）和LLM Reasoning（如思维链、多步推理）在AI搜索场景的应用，特别是提升复杂搜索能力（如Deep Research）； 3.构建端到端Agent优化系统，将意图识别、推理规划、工具调用、信息检索和结果生成等步骤联合优化，探索大模型AI搜索Agent的智能上限； 4.研究AI搜索Agent的自动评测标准和方法，构建公平、合理并且全面的评测系统加速Agent迭代； 5.跟踪大模型和搜索最前沿的技术，包括但不限于多模态、Scaling Law、训练范式探索、长文本优化、高效训推框架探索。安全方向： 1.负责LLM、VLM通用大模型与垂类大模型的内容安全研发，提升模型识别风险、规避风险、处置风险的能力。 2.负责通过定性、定量方法评估策略表现，进行策略迭代更新，不断提升内容安全效果。 3.深度参与大模型、安全、算法等领域的调研，结合通用模型的新技术、新场景，如LongCoT、Agent、GUI，积极探索相应新技术、新场景上，安全方案的创新和落地。

更新于 2025-05-23北京|上海

【北斗】基座大模型算法研究员（评测与探索）

校招核心本地商业-基

美团大模型评测团队以指引通往AGI的道路为目标，深耕模型评测研究，系统性的理解大模型当前能力水平及未来技术发展方向，并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于： 1.构建科学有效的评测方案，为现阶段大模型提供有效的评测和分析手段，并面向未来模型储备评测技术，包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等； 2.结合模型训练过程和评测结果，对模型的能力进行建模及深入的理解和研究，包括能力体系构建、训练阶段分析、模型能力/问题溯源等； 3.探索模型能力边界，发现当前模型训练范式的局限性，寻求模型能力突破，包括异步交互、记忆管理、自主学习、具身智能等。本岗位涉及的模型及方向包括： 1.面向下一代文本模型的评测与探索，包括但不限于：完善推理系模型的评测框架，引入推理效率相关的评测指标等。 2.面向多模理解与生成能力评测与探索，包括但不限于：全模态及跨模态交互能力，世界模型与具身智能能力。 3.面向模型Agent能力的评测与探索，包括但不限于：模型的任务规划、工具使用、环境反馈、自主决策等通用Agent能力，及Computer Use、Code Agent、通用搜索等产品级Agent方向。 4.长周期人机协作与Agent能力边界探索，包括但不限于：Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。

更新于 2025-05-23北京|上海