美团【大模型北斗实习】大规模 Post-training 算法架构前沿研究

实习兼职核心本地商业-基础研发平台2025-05-23地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1）熟悉大规模分布式训练、推理、量化等技术之一。
2）熟悉常用的训练推理框架，vLLM、SGLang、M…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

Post-training 是提升大模型专项能力的核心技术方向之一，包括不限于复杂推理（Reasoning）、价值观对齐（Alignment）、业务Agent应用等研究方向。
本课题研究方向包括但不限于：
1）实现高效灵活的多模型强化学习训练架构。
2）通过合理灵活动态配置资源，提升PPO及各变种算法运行效率。
3）研究低精度在 Post-training 中的应用方式。
4）研究不同的算法+数据对效果的影响。
5）在复杂框架下，研究如何高效的追踪记录训练过程，提升算法探索效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

vLLM+

Megatron+

还有更多 •••

登录查看完整学习资料

相关职位

【大模型北斗实习】语音基座大模型前沿探索

实习核心本地商业-基

语音基座大模型是下一代语音算法的基础，也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于： 1）预训练方法研究：设计预训练任务，使训练可大规模扩展，且能够学习到丰富的知识，使得模型同时具备强大的理解和生成能力，进一步实现能力的涌现。 2）tokenizer 优化：探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。 3）泛音频理解：对语音理解之外，探索更广泛的音频（如音乐、环境声）理解能力，以及基于 reasoning 的理解能力。 4) token2wav：与基座大模型配合，实现高效、高质量的语音/音频生成。 5) post-training：探索基于 SFT 和 RL 的后训练策略，激活基座模型的理解和生成能力，实现通用的音频能力，并具备强表现力、多风格、多语种、多音色的能力。

更新于 2025-05-23北京|上海

【大模型北斗实习】基于多模序列建模提升原生多模态大模型智能水平

实习核心本地商业-基

原生多模旨在统一理解与生成，从而用同一套范式处理文本、视觉、语音等各个模态的数据，从而更加自然地进行模态融合，以及通过scaling友好的训练范式，解锁模型智能的新维度。本课题研究内容包括： 1）Pre-train：借助更好的tokenizer架构 / 数据表达 / loss设计，发挥原生多模态能够不依赖文本标注，直接学习无监督多模数据的优势，进一步提升模型能力。例如基于大规模的视频/语音数据自监督训练，对物理世界建模。 2）Post-train：通过SFT / RL等手段，借助多模token推理解锁模型新的智能维度，提升模型解决Robot/Gaming等物理世界问题的能力。

更新于 2025-05-23北京|香港|上海

【大模型北斗实习】预训练架构优化

实习核心本地商业-基

本课题专注于大规模预训练场景下，分布式系统架构优化前沿技术探索。通过软硬件协同设计和算法工程联合优化，降低大规模预训练的成本和迭代周期。研究内容包括但不限于：1）多维并行架构的优化，如流水线并行（PP）、张量并行（TP）、数据并行（DP）等并行架构在特定硬件、模型架构下的联合优化。 2）MoE 模型结构和训练工程架构的联合优化探索，如大量小专家场景的训练结构优化。 3）联合算法工程师深入合作，进行Attention机制的训练策略和架构优化探索，如线性注意力、稀疏注意力等，提升超长序列建模效果和训练效率。 4）优化多芯片架构、异地多机房环境下的异构训练系统，解锁大规模训练上推的单地域机房容量和电力限制。 5）FP8、FP4 等低精度浮点数下的训练策略和训练性能优化探索。

更新于 2025-05-23北京|上海

【大模型北斗实习】面向真实物理世界的大规模智能体研究（Agent In Real Life）

实习核心本地商业-美

随着 LLM 与 RL 技术的飞速发展，具备自主决策与执行能力的 Agent 系统成为 AI 领域的前沿研究方向。本课题聚焦于构建能够在真实物理世界（餐饮、购物、旅行规划等）复杂场景下自主运行的 Agent 系统，解决传统 AI 系统难以应对的多步骤规划、长期目标追踪、环境适应性等核心挑战。主要研究内容包括但不限于： 1）自主规划与决策：研究基于 LLM 的 CoT 等的复杂推理机制，使 Agent 能够自主分解并解决如"为一家四口安排一个周末出游计划，包括交通、住宿、餐饮和活动"等多步骤任务；开发能够在规划失败时进行自我修正和重新规划的自适应决策框架，突破传统 Agent 在复杂场景下的规划瓶颈。 2）强化学习驱动的自主优化：应用前沿强化学习算法（如PPO、GRPO、RL）优化 Agent 的决策系统，通过用户反馈和任务完成度构建复杂奖励函数；研究如何在高维状态空间和长期依赖问题中有效进行奖励分配，解决真实复杂物理场景中典型的延迟反馈和稀疏奖励挑战。 3）多 Agent 协作与分布式决策：设计基于角色分工的多 Agent 协作框架，使不同专长的 Agent 能够协同解决复杂任务，如"美食专家 Agent 负责菜品推荐，规划 Agent 负责整体行程安排"等；研究 Agent 间的通信协议和共识机制，解决分布式决策中的冲突协调和资源分配问题。

更新于 2025-05-23北京|上海