宇树科技AI Infra ⼯程师
社招全职地点:杭州状态:招聘
任职要求
1. 具备千卡级 GPU 集群训练实践,熟悉⼤模型训练中的常⻅问题与系统级解决⽅案;
2. 熟练掌握 DDP / FSDP 等分布式机制底层原理;
3. 熟练运⽤ DeepSpeed、Megatron-LM 等主流框架;
4. 具备结合模型结构制定最优并⾏策略⽅案能⼒;
5. 具备全栈性能分析能…登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责⼤规模算⼒集群下AI框架的设计与建设。 2. 构建并维护⼤规模算⼒集群的分布式训练系统,⽀持⼤模型训练。 3. 优化⼤模型训练 GPU 利⽤率、内存占⽤和训练吞吐量,消除训练瓶颈。 4. 优化数据加载器效率,缩短从数据到达模型训练的耗时。 5. 与研发团队密切合作,⽀持多模态⼤模型及运控模型训练优化。 6. 构建低延迟推理流⽔线:⽤于机器⼈实时控制,并应⽤量化(Quantization)、蒸馏(Distillation)和模型编译等技术优化推理性能。
包括英文材料
FSDP+
https://docs.pytorch.org/tutorials/intermediate/FSDP_tutorial.html
In DistributedDataParallel (DDP) training, each rank owns a model replica and processes a batch of data, finally it uses all-reduce to sync gradients across ranks.
https://www.youtube.com/watch?v=PjEwLgyzuzQ
FSDP provides a comprehensive framework for large model training in PyTorch.
还有更多 •••