美团【基座大模型北斗实习】大模型后训练研究
实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
1、了解 PPO / GRPO / DPO 算法原理,最好动手实现过; 2、用过 veRL / OpenRLHF / TRL 等RL训练框架; 3、有 vLLM / SGLang / Te…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
简介:负责大规模强化学习系统设计、分布式调优、调度优化、算法 co-design等,包括不限于 RLHF、RLVR、Agentic RL等范式。和算法共同提升模型各类专项能力,应用生产力等等 你可能从事以下方向: 1、RL训练系统架构 ①设计和实现支持 PPO及各类变种算法的高效训练框架。 ②Data/Env Scaling,优化并发调度效率 。 2、在线采样 & Rollout 优化 ①优化RL场景(longcot、长尾分布、多轮交互)推理引擎效率,包括不限于量化、MTP、并行切分等等。 ②训推混部署、全流程异步训练,提升 GPU 利用率。 3、 训推一致性 ①训推引擎天然为了各自最大化效率存在精度差异,研究如何不断降低两者diff,包括不限于 Routing Replay、确定性计算等等。 4、训练稳定性 ①攻克RL训练特有的奖励Hacking、训练不稳定、KL爆炸等系统层面问题。 ②设计细粒度的训练过程监控:reward曲线、KL散度、entropy变化实时可观测。 ③优化 PPO clip、advantage normalization 等关键超参的自动调节机制。 5.、长程任务训练优化 ①长程任务奖励稀疏、过程难精确控制,研究如何系统性的优化其中工程和算法挑战。
包括英文材料
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
vLLM+
https://www.newline.co/@zaoyang/ultimate-guide-to-vllm--aad8b65d
vLLM is a framework designed to make large language models faster, more efficient, and better suited for production environments.
https://www.youtube.com/watch?v=Ju2FrqIrdx0
vLLM is a cutting-edge serving engine designed for large language models (LLMs), offering unparalleled performance and efficiency for AI-driven applications.
SGLang+
[英文] Install SGLang
https://docs.sglang.ai/get_started/install.html
SGLang is a fast serving framework for large language models and vision language models.
https://github.com/sgl-project/sgl-learning-materials
还有更多 •••