logo of unitree

宇树科技AI Infra ⼯程师

社招全职地点:杭州状态:招聘

任职要求


1. 具备千卡级 GPU 集群训练实践,熟悉⼤模型训练中的常⻅问题与系统级解决⽅案;
2. 熟练掌握 DDP / FSDP 等分布式机制底层原理;
3. 熟练运⽤ DeepSpeed、Megatron-LM 等主流框架;
4. 具备结合模型结构制定最优并⾏策略⽅案能⼒;
5. 具备全栈性能分析能…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责⼤规模算⼒集群下AI框架的设计与建设。
2. 构建并维护⼤规模算⼒集群的分布式训练系统,⽀持⼤模型训练。
3. 优化⼤模型训练 GPU 利⽤率、内存占⽤和训练吞吐量,消除训练瓶颈。
4. 优化数据加载器效率,缩短从数据到达模型训练的耗时。
5. 与研发团队密切合作,⽀持多模态⼤模型及运控模型训练优化。
6. 构建低延迟推理流⽔线:⽤于机器⼈实时控制,并应⽤量化(Quantization)、蒸馏(Distillation)和模型编译等技术优化推理性能。
包括英文材料
FSDP+
还有更多 •••