米哈游大模型训练平台研发工程师
社招全职5年以上程序&技术类地点:上海 | 北京状态:招聘
任职要求
1. 5 年以上 Kubernetes 深度使用或二次开发经验,熟悉 Scheduler Framework、CRD、Operator; 2. 有 大规模 GPU 集群(≥100 卡)调度系统 实战经验,熟悉 Volcano / Kueue / YuniKorn 等批处理调度器; 3. 了解分布式训练通信原理,有 NCCL 调优、RDMA 故障排查、AllReduce 性能分析经验优先; 4. 参与过企业级机器…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 主导 基于 Kubernetes 的大规模训练作业调度系统 设计,支持千卡 GPU 集群的弹性伸缩、拓扑感知、容错恢复; 2. 深度优化训练资源利用率:实现 Gang Scheduling、Bin Packing、抢占式调度、Spot 实例混部; 3. 构建高性能训练网络栈:优化 RDMA/RoCE v2 配置,调优 NCCL 通信参数,解决 AllReduce 瓶颈; 4. 集成并扩展主流训练框架(DeepSpeed, Megatron-LM, FSDP, JAX)与 通信库(NCCL, Gloo); 5. 设计训练任务可观测体系:监控 GPU 利用率、通信带宽、显存碎片、Loss 异常等关键指标; 6. 探索新型硬件协同优化:NVIDIA NIC(如 ConnectX-7)、GPU Direct RDMA(GDR)、NVLink 拓扑感知调度;
包括英文材料
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
开发框架+
[英文] Understanding Modern Development Frameworks: A Guide for Developers and Technical Decision-makers
https://www.freecodecamp.org/news/understanding-modern-development-frameworks-guide-for-devs/
Volcano+
[英文] Tutorials
https://volcano.sh/en/docs/tutorials/
This section provides guidance to help you quickly get started with Volcano, from deploying a basic Volcano Job/Deployment, to integrating with Volcano Queues
NCCL+
https://developer.nvidia.com/nccl
The NVIDIA Collective Communication Library (NCCL) implements multi-GPU and multi-node communication primitives optimized for NVIDIA GPUs and networking.
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
还有更多 •••
相关职位
社招3年以上技术类
1.参与B站大模型训练平台建设,配合团队完成训练平台的架构细化与技术落地,参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代,保障训练平台基础功能稳定可靠; 2.参与大模型主流训练范式(预训练/后训练)的平台化集成工作,协助完成训练流程的标准化、自动化落地,降低算法团队训练门槛; 3.大模型训练全链路可观测性,参与设计并落地训练过程中的核心监控指标,为训练效率提升与问题定位提供数据支撑; 4.参与训练链路问题排查,配合算法与框架团队,跟踪大模型训练全链路,参与定位并解决训练过程中出现的平台层技术问题,如数据传输瓶颈、分布式训练通信异常等,保障训练任务顺利推进。
更新于 2026-03-23上海
社招3年以上ACG
-为视觉大模型项目交付的方案、质量、效率负责 -完成项目交付过程中的技术对接、方案设计及核心功能的开发 -参与团队开发过程中的Code Review、文档撰写、复杂问题排查等工作 -参与团队公共技术组件的抽象、沉淀和架构优化
更新于 2025-04-24北京
社招3年以上ACG
-为视觉大模型项目交付的方案、质量、效率负责 -完成项目交付过程中的技术对接、方案设计及核心功能的开发 -参与团队开发过程中的Code Review、文档撰写、复杂问题排查等工作 -参与团队公共技术组件的抽象、沉淀和架构优化
更新于 2025-04-24北京