logo of meituan

美团【基座大模型北斗实习】大模型后训练研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1、了解 PPO / GRPO / DPO 算法原理,最好动手实现过;
2、用过 veRL / OpenRLHF / TRL 等RL训练框架;
3、有 vLLM / SGLang / Te…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:负责大规模强化学习系统设计、分布式调优、调度优化、算法 co-design等,包括不限于 RLHF、RLVR、Agentic RL等范式。和算法共同提升模型各类专项能力,应用生产力等等

你可能从事以下方向:
1、RL训练系统架构
①设计和实现支持 PPO及各类变种算法的高效训练框架。
②Data/Env Scaling,优化并发调度效率 。
2、在线采样 & Rollout 优化
①优化RL场景(longcot、长尾分布、多轮交互)推理引擎效率,包括不限于量化、MTP、并行切分等等。
②训推混部署、全流程异步训练,提升 GPU 利用率。
3、 训推一致性
①训推引擎天然为了各自最大化效率存在精度差异,研究如何不断降低两者diff,包括不限于 Routing Replay、确定性计算等等。
4、训练稳定性
①攻克RL训练特有的奖励Hacking、训练不稳定、KL爆炸等系统层面问题。
②设计细粒度的训练过程监控:reward曲线、KL散度、entropy变化实时可观测。
③优化 PPO clip、advantage normalization 等关键超参的自动调节机制。
5.、长程任务训练优化
①长程任务奖励稀疏、过程难精确控制,研究如何系统性的优化其中工程和算法挑战。
包括英文材料
算法+
大模型+
vLLM+
SGLang+
还有更多 •••