美团【基座大模型北斗实习】大模型预训练研究

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、具备 CUDA kernel 开发和 Profile 能力，理解并行计算、存储层级架构，或具备国产AI算力开发经验；
2、改过 Megatron-LM / DeepSpeed / FSDP 源码（不是只…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：千亿参数、万亿Token、万卡集群——预训练的核心命题只有一个：在极限规模下，让每一张GPU都跑满，每一次迭代都不浪费。这是工程复杂度最高、也最能锻炼系统能力的地方。

你可能会做以下方向研究：
1、超大规模分布式训练
①设计和优化ND并行（EP/CP/DP/TP/PP）+ MoE并行混合策略，支撑万亿参数模型训练。
②深入 Megatron-LM 内核，针对美团模型架构做定制化设计、改造，性能优化。
③解决流水线气泡、显存碎片、梯度累积等大规模训练特有的工程难题，细粒度控制平衡计算通行的精度和效率。
2、计算 & 算子优化
①基于 CUDA / Triton 开发高性能训练算子（FlashAttention变体、FusedMLP、RMSNorm等）。
②推进 8bit、4bit 混合精度训练落地，在精度与速度之间找到最优平衡。
③通过 profiling 定位热点，把MFU（模型算力利用率）推向理论上限。
3、通信链路优化
①深挖 NCCL / RDMA / InfiniBand 通信性能，优化 AllReduce/AllGather/MoE层Dispatch/Combine 等集合通信原语。
②结合网络拓扑设计通信-计算重叠策略，让通信开销近乎透明。
4、稳定性 & 大规模容错
①构建万卡级自动故障检测、弹性容错、断点续训机制。
②设计高效的异步checkpoint方案，千亿模型保存时间压到分钟级。
③开发训练健康度监控系统：loss异常、梯度爆炸、卡间通信超时等实时告警。
5、存储 & 数据IO
①解决 PB级预训练语料的高并发高吞吐读取问题。
②设计 tokenized 数据的分布式缓存与预取，IO不成为训练瓶颈。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

CUDA+

内核+

Megatron+

还有更多 •••

登录查看完整学习资料