美团【基座大模型北斗实习】大模型预训练研究
实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
1、具备 CUDA kernel 开发和 Profile 能力,理解并行计算、存储层级架构,或具备国产AI算力开发经验; 2、改过 Megatron-LM / DeepSpeed / FSDP 源码(不是只…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
简介:千亿参数、万亿Token、万卡集群——预训练的核心命题只有一个:在极限规模下,让每一张GPU都跑满,每一次迭代都不浪费。这是工程复杂度最高、也最能锻炼系统能力的地方。 你可能会做以下方向研究: 1、超大规模分布式训练 ①设计和优化ND并行(EP/CP/DP/TP/PP)+ MoE并行混合策略,支撑万亿参数模型训练。 ②深入 Megatron-LM 内核,针对美团模型架构做定制化设计、改造,性能优化。 ③解决流水线气泡、显存碎片、梯度累积等大规模训练特有的工程难题,细粒度控制平衡计算通行的精度和效率。 2、计算 & 算子优化 ①基于 CUDA / Triton 开发高性能训练算子(FlashAttention变体、FusedMLP、RMSNorm等)。 ②推进 8bit、4bit 混合精度训练落地,在精度与速度之间找到最优平衡。 ③通过 profiling 定位热点,把MFU(模型算力利用率)推向理论上限。 3、通信链路优化 ①深挖 NCCL / RDMA / InfiniBand 通信性能,优化 AllReduce/AllGather/MoE层Dispatch/Combine 等集合通信原语。 ②结合网络拓扑设计通信-计算重叠策略,让通信开销近乎透明。 4、稳定性 & 大规模容错 ①构建万卡级自动故障检测、弹性容错、断点续训机制。 ②设计高效的异步checkpoint方案,千亿模型保存时间压到分钟级。 ③开发训练健康度监控系统:loss异常、梯度爆炸、卡间通信超时等实时告警。 5、存储 & 数据IO ①解决 PB级预训练语料的高并发高吞吐读取问题。 ②设计 tokenized 数据的分布式缓存与预取,IO不成为训练瓶颈。
包括英文材料
CUDA+
https://developer.nvidia.com/blog/even-easier-introduction-cuda/
This post is a super simple introduction to CUDA, the popular parallel computing platform and programming model from NVIDIA.
https://www.youtube.com/watch?v=86FAWCzIe_4
Lean how to program with Nvidia CUDA and leverage GPUs for high-performance computing and deep learning.
内核+
https://www.youtube.com/watch?v=C43VxGZ_ugU
I rummage around the Linux kernel source and try to understand what makes computers do what they do.
https://www.youtube.com/watch?v=HNIg3TXfdX8&list=PLrGN1Qi7t67V-9uXzj4VSQCffntfvn42v
Learn how to develop your very own kernel from scratch in this programming series!
https://www.youtube.com/watch?v=JDfo2Lc7iLU
Denshi goes over a simple explanation of what computer kernels are and how they work, alonside what makes the Linux kernel any special.
Megatron+
https://www.youtube.com/watch?v=hc0u4avAkuM
还有更多 •••