美团【大模型北斗实习】大规模 Post-training 算法架构前沿研究
任职要求
1)熟悉大规模分布式训练、推理、量化等技术之一。 2)熟悉常用的训练推理框架,vLLM、SGLang、Megatron、Deepspeed等。 3)熟悉强化学习算法。 加分项:相关领域开源项目或发表高水平论文。
工作职责
Post-training 是提升大模型专项能力的核心技术方向之一,包括不限于复杂推理(Reasoning)、价值观对齐(Alignment)、业务Agent应用等研究方向。 本课题研究方向包括但不限于: 1)实现高效灵活的多模型强化学习训练架构。 2)通过合理灵活动态配置资源,提升PPO及各变种算法运行效率。 3)研究低精度在 Post-training 中的应用方式。 4)研究不同的算法+数据对效果的影响。 5)在复杂框架下,研究如何高效的追踪记录训练过程,提升算法探索效率。
语音基座大模型是下一代语音算法的基础,也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于: 1)预训练方法研究:设计预训练任务,使训练可大规模扩展,且能够学习到丰富的知识,使得模型同时具备强大的理解和生成能力,进一步实现能力的涌现。 2)tokenizer 优化:探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。 3)泛音频理解:对语音理解之外,探索更广泛的音频(如音乐、环境声)理解能力,以及基于 reasoning 的理解能力。 4) token2wav:与基座大模型配合,实现高效、高质量的语音/音频生成。 5) post-training:探索基于 SFT 和 RL 的后训练策略,激活基座模型的理解和生成能力,实现通用的音频能力,并具备强表现力、多风格、多语种、多音色的能力。
原生多模旨在统一理解与生成,从而用同一套范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。本课题研究内容包括: 1)Pre-train:借助更好的tokenizer架构 / 数据表达 / loss设计,发挥原生多模态能够不依赖文本标注,直接学习无监督多模数据的优势,进一步提升模型能力。例如基于大规模的视频/语音数据自监督训练,对物理世界建模。 2)Post-train:通过SFT / RL等手段,借助多模token推理解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。
本课题专注于大规模预训练场景下,分布式系统架构优化前沿技术探索。通过软硬件协同设计和算法工程联合优化,降低大规模预训练的成本和迭代周期。 研究内容包括但不限于:1)多维并行架构的优化,如流水线并行(PP)、张量并行(TP)、数据并行(DP)等并行架构在特定硬件、模型架构下的联合优化。 2)MoE 模型结构和训练工程架构的联合优化探索,如大量小专家场景的训练结构优化。 3)联合算法工程师深入合作,进行Attention机制的训练策略和架构优化探索,如线性注意力、稀疏注意力等,提升超长序列建模效果和训练效率。 4)优化多芯片架构、异地多机房环境下的异构训练系统,解锁大规模训练上推的单地域机房容量和电力限制。 5)FP8、FP4 等低精度浮点数下的训练策略和训练性能优化探索。
随着 LLM 与 RL 技术的飞速发展,具备自主决策与执行能力的 Agent 系统成为 AI 领域的前沿研究方向。本课题聚焦于构建能够在真实物理世界(餐饮、购物、旅行规划等)复杂场景下自主运行的 Agent 系统,解决传统 AI 系统难以应对的多步骤规划、长期目标追踪、环境适应性等核心挑战。主要研究内容包括但不限于: 1)自主规划与决策:研究基于 LLM 的 CoT 等的复杂推理机制,使 Agent 能够自主分解并解决如"为一家四口安排一个周末出游计划,包括交通、住宿、餐饮和活动"等多步骤任务;开发能够在规划失败时进行自我修正和重新规划的自适应决策框架,突破传统 Agent 在复杂场景下的规划瓶颈。 2)强化学习驱动的自主优化:应用前沿强化学习算法(如PPO、GRPO、RL)优化 Agent 的决策系统,通过用户反馈和任务完成度构建复杂奖励函数;研究如何在高维状态空间和长期依赖问题中有效进行奖励分配,解决真实复杂物理场景中典型的延迟反馈和稀疏奖励挑战。 3)多 Agent 协作与分布式决策:设计基于角色分工的多 Agent 协作框架,使不同专长的 Agent 能够协同解决复杂任务,如"美食专家 Agent 负责菜品推荐,规划 Agent 负责整体行程安排"等;研究 Agent 间的通信协议和共识机制,解决分布式决策中的冲突协调和资源分配问题。