美团【基座大模型北斗实习】大语言模型后训练前沿算法研究

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、硕士及以上学历，计算机、人工智能、数学等相关专业，博士优先；
2、熟悉NLP、LLM、RL等相关领域，对其中一个或多个方向有深入的研究经历，且有相关实践经验；
3、有较强的分析和解决问题…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：大语言模型后训练前沿算法研究包括但不限于：
1、对齐算法研发：包括 SFT 数据建设，指令微调等。构建高质量的训练数据，包括自动化数据清洗、合成数据生产、高质量 Prompt Engineering 等。优化模型复杂指令遵循、逻辑推理、创作写作、代码生成以及工具调用等能力，提升模型综合能力和用户体验。
2、人类偏好对齐：包括奖励模型、人类偏好对齐等前沿强化算法的探索和实践，提升模型在包括创意写作、对话风格以及模型内生安全对齐等人类偏好上的可控性，生成更符合人类价值观、逻辑习惯和审美偏好的内容。
3、跟踪并实现最新的后训练技术（如数据领域自动化配比、后训练机制设计和优化等）。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

大模型+

NeurIPS+

还有更多 •••

登录查看完整学习资料

相关职位

【基座大模型北斗实习】大模型预训练研究

实习核心本地商业-基

简介：千亿参数、万亿Token、万卡集群——预训练的核心命题只有一个：在极限规模下，让每一张GPU都跑满，每一次迭代都不浪费。这是工程复杂度最高、也最能锻炼系统能力的地方。你可能会做以下方向研究： 1、超大规模分布式训练 ①设计和优化ND并行（EP/CP/DP/TP/PP）+ MoE并行混合策略，支撑万亿参数模型训练。 ②深入 Megatron-LM 内核，针对美团模型架构做定制化设计、改造，性能优化。 ③解决流水线气泡、显存碎片、梯度累积等大规模训练特有的工程难题，细粒度控制平衡计算通行的精度和效率。 2、计算 & 算子优化 ①基于 CUDA / Triton 开发高性能训练算子（FlashAttention变体、FusedMLP、RMSNorm等）。 ②推进 8bit、4bit 混合精度训练落地，在精度与速度之间找到最优平衡。 ③通过 profiling 定位热点，把MFU（模型算力利用率）推向理论上限。 3、通信链路优化 ①深挖 NCCL / RDMA / InfiniBand 通信性能，优化 AllReduce/AllGather/MoE层Dispatch/Combine 等集合通信原语。 ②结合网络拓扑设计通信-计算重叠策略，让通信开销近乎透明。 4、稳定性 & 大规模容错 ①构建万卡级自动故障检测、弹性容错、断点续训机制。 ②设计高效的异步checkpoint方案，千亿模型保存时间压到分钟级。 ③开发训练健康度监控系统：loss异常、梯度爆炸、卡间通信超时等实时告警。 5、存储 & 数据IO ①解决 PB级预训练语料的高并发高吞吐读取问题。 ②设计 tokenized 数据的分布式缓存与预取，IO不成为训练瓶颈。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】大模型推理前沿研究

实习核心本地商业-基

简介：打造 world class，production ready 的大模型推理引擎，可根据个人背景和研究兴趣选择以下方向之一深入推进： 1、异构硬件高性能推理算子研究与开发。 2、Model System Co -design，充分利用硬件特性。 3、Scale up & scale out 分布式推理系统设计，高效可靠的推理调度体系。 4、投机推理算法研究与落地。 5、模型/KVCache 量化算法研究与算子开发。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】大模型架构研究

实习核心本地商业-基

简介：大模型架构优化探索，算法工程协同设计，涉及到训练和推理的各类算法和工程策略探索落地。参与美团基座大模型项目，包含但不限于： 1、大模型高效架构设计探索（高效attention，moe架构等）。 2、预训练 / 后训练算法工程策略。 3、投机推理算法工程策略。 4、模型轻量化策略（剪枝，量化，稀疏，蒸馏，结构搜索等）。 5、Agentic coding系统优化策略。

更新于 2026-04-03北京|上海

【基座大模型北斗实习】大模型后训练研究

实习核心本地商业-基

简介：负责大规模强化学习系统设计、分布式调优、调度优化、算法 co-design等，包括不限于 RLHF、RLVR、Agentic RL等范式。和算法共同提升模型各类专项能力，应用生产力等等你可能从事以下方向： 1、RL训练系统架构 ①设计和实现支持 PPO及各类变种算法的高效训练框架。 ②Data/Env Scaling，优化并发调度效率。 2、在线采样 & Rollout 优化 ①优化RL场景（longcot、长尾分布、多轮交互）推理引擎效率，包括不限于量化、MTP、并行切分等等。 ②训推混部署、全流程异步训练，提升 GPU 利用率。 3、训推一致性 ①训推引擎天然为了各自最大化效率存在精度差异，研究如何不断降低两者diff，包括不限于 Routing Replay、确定性计算等等。 4、训练稳定性 ①攻克RL训练特有的奖励Hacking、训练不稳定、KL爆炸等系统层面问题。 ②设计细粒度的训练过程监控：reward曲线、KL散度、entropy变化实时可观测。 ③优化 PPO clip、advantage normalization 等关键超参的自动调节机制。 5.、长程任务训练优化 ①长程任务奖励稀疏、过程难精确控制，研究如何系统性的优化其中工程和算法挑战。

更新于 2026-04-03北京|上海