美团【基座大模型北斗实习】大模型训练研究
实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
1、GPU编程:写过CUDA kernel,理解warp/SM/显存层次结构; 2、训练框架:用过或改过Megatron/DeepSpeed/FSDP,不只是跑过demo; 3、通信系统:了解NCCL原理,或…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
简介:大模型的能力上限,很大程度取决于训练系统的天花板。我们在做的事:让千亿参数的模型在万卡集群上跑得更快、更稳、更省——把每一张GPU的算力榨干,把每一次训练崩溃的损失降到最低,把工程师等待结果的时间从“几天”压到“几小时”。 1、分布式训练框架优化 ①深入源码,针对美团训练场景做定制化改造。 ②设计和实现更高效的张量并行、流水线并行、数据并行混合策略。 ③探索 MoE(混合专家) 模型的并行训练方案,解决专家负载均衡、通信爆炸等硬问题。 2、计算效率优化 ①基于 CUDA / Triton 编写和优化高性能算子(FlashAttention、FusedMLP等)。 ②分析训练 profiling 数据,定位计算/通信/内存的瓶颈并针对性优化。 ③推进混合精度训练、梯度压缩等技术落地。
包括英文材料
CUDA+
https://developer.nvidia.com/blog/even-easier-introduction-cuda/
This post is a super simple introduction to CUDA, the popular parallel computing platform and programming model from NVIDIA.
https://www.youtube.com/watch?v=86FAWCzIe_4
Lean how to program with Nvidia CUDA and leverage GPUs for high-performance computing and deep learning.
内核+
https://www.youtube.com/watch?v=C43VxGZ_ugU
I rummage around the Linux kernel source and try to understand what makes computers do what they do.
https://www.youtube.com/watch?v=HNIg3TXfdX8&list=PLrGN1Qi7t67V-9uXzj4VSQCffntfvn42v
Learn how to develop your very own kernel from scratch in this programming series!
https://www.youtube.com/watch?v=JDfo2Lc7iLU
Denshi goes over a simple explanation of what computer kernels are and how they work, alonside what makes the Linux kernel any special.
Megatron+
https://www.youtube.com/watch?v=hc0u4avAkuM
还有更多 •••