logo of meituan

美团【基座大模型北斗实习】大模型预训练研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1、具备 CUDA kernel 开发和 Profile 能力,理解并行计算、存储层级架构,或具备国产AI算力开发经验;
2、改过 Megatron-LM / DeepSpeed / FSDP 源码(不是只…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:千亿参数、万亿Token、万卡集群——预训练的核心命题只有一个:在极限规模下,让每一张GPU都跑满,每一次迭代都不浪费。这是工程复杂度最高、也最能锻炼系统能力的地方。

你可能会做以下方向研究:
1、超大规模分布式训练
①设计和优化ND并行(EP/CP/DP/TP/PP)+ MoE并行混合策略,支撑万亿参数模型训练。
②深入 Megatron-LM 内核,针对美团模型架构做定制化设计、改造,性能优化。
③解决流水线气泡、显存碎片、梯度累积等大规模训练特有的工程难题,细粒度控制平衡计算通行的精度和效率。
2、计算 & 算子优化
①基于 CUDA / Triton 开发高性能训练算子(FlashAttention变体、FusedMLP、RMSNorm等)。
②推进 8bit、4bit 混合精度训练落地,在精度与速度之间找到最优平衡。
③通过 profiling 定位热点,把MFU(模型算力利用率)推向理论上限。
3、通信链路优化
①深挖 NCCL / RDMA / InfiniBand 通信性能,优化 AllReduce/AllGather/MoE层Dispatch/Combine 等集合通信原语。
②结合网络拓扑设计通信-计算重叠策略,让通信开销近乎透明。
4、稳定性 & 大规模容错
①构建万卡级自动故障检测、弹性容错、断点续训机制。
②设计高效的异步checkpoint方案,千亿模型保存时间压到分钟级。
③开发训练健康度监控系统:loss异常、梯度爆炸、卡间通信超时等实时告警。
5、存储 & 数据IO
①解决 PB级预训练语料的高并发高吞吐读取问题。
②设计 tokenized 数据的分布式缓存与预取,IO不成为训练瓶颈。
包括英文材料
CUDA+
内核+
Megatron+
还有更多 •••