美团【大模型北斗实习】大规模 Post-training 算法架构前沿研究
任职要求
1)熟悉大规模分布式训练、推理、量化等技术之一。
2)熟悉常用的训练推理框架,vLLM、SGLang、M…工作职责
Post-training 是提升大模型专项能力的核心技术方向之一,包括不限于复杂推理(Reasoning)、价值观对齐(Alignment)、业务Agent应用等研究方向。 本课题研究方向包括但不限于: 1)实现高效灵活的多模型强化学习训练架构。 2)通过合理灵活动态配置资源,提升PPO及各变种算法运行效率。 3)研究低精度在 Post-training 中的应用方式。 4)研究不同的算法+数据对效果的影响。 5)在复杂框架下,研究如何高效的追踪记录训练过程,提升算法探索效率。
语音基座大模型是下一代语音算法的基础,也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于: 1)预训练方法研究:设计预训练任务,使训练可大规模扩展,且能够学习到丰富的知识,使得模型同时具备强大的理解和生成能力,进一步实现能力的涌现。 2)tokenizer 优化:探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。 3)泛音频理解:对语音理解之外,探索更广泛的音频(如音乐、环境声)理解能力,以及基于 reasoning 的理解能力。 4) token2wav:与基座大模型配合,实现高效、高质量的语音/音频生成。 5) post-training:探索基于 SFT 和 RL 的后训练策略,激活基座模型的理解和生成能力,实现通用的音频能力,并具备强表现力、多风格、多语种、多音色的能力。
原生多模旨在统一理解与生成,从而用同一套范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。本课题研究内容包括: 1)Pre-train:借助更好的tokenizer架构 / 数据表达 / loss设计,发挥原生多模态能够不依赖文本标注,直接学习无监督多模数据的优势,进一步提升模型能力。例如基于大规模的视频/语音数据自监督训练,对物理世界建模。 2)Post-train:通过SFT / RL等手段,借助多模token推理解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。
在AIGC大模型的RLHF阶段,奖励模型(Reward Models)通过提供精准的奖励反馈来调整模型优化方向,以提升图像生成的质感与美感,从而增强整体视觉呈现效果。同时,随着模型参数规模的不断增加,亟需从模型架构层面探讨更优的生成策略。课题研究内容包括但不限于: 1)多维度图像奖励模型的设计。 2)DiT框架的优化,探索性能与推理效率的极限。 3)图像生成范式的探索,系统性验证AR或AR+Diffusion方案的优缺点,以迈向更大规模的生成模型。