拼多多大模型训练平台工程师
任职要求
1)扎实的编程能力(Golang / Python),良好的数据结构与算法基础; 2)理解分布式系统基本概念(通信、调度、容错); 3)熟悉 PyTorch 训练机制与源码结构; 4)具备性能分析能力(GPU 利用率 / 通信瓶颈); 5)理解大模型训练基本流程; 6)熟悉 Linux 系统、容器(Docker/K8s)及常见集群调度工具; 7)理解训练指标(收敛速度 / 稳定性 / 吞吐)。 加分项 加分项(满足部分即可) …
工作职责
1)设计并维护支持千亿参数模型的分布式训练系统及作业调度、资源管控平台; 2)优化分布式训练资源调度管理能力,优化大规模GPU集群资源使用率; 3) 与基础团队合作,推进作业调度(如 Kubernetes / Slurm)、存储( CFS / PFS / OSS)、网络互联的联调优化; 4) 建设自动化的训练监控、Checkpoint 保存与容错恢复机制,降低大规模训练任务的中断损失; 5) 负责预训练数据的高效加载与预处理流程,确保 I/O 不成为训练瓶颈,支持 TB 级数据集的高效迭代; 6) 搭建实验管理、超参数追踪、可视化监控等工具链,支持研究团队快速迭代。
1. 主导 基于 Kubernetes 的大规模训练作业调度系统 设计,支持千卡 GPU 集群的弹性伸缩、拓扑感知、容错恢复; 2. 深度优化训练资源利用率:实现 Gang Scheduling、Bin Packing、抢占式调度、Spot 实例混部; 3. 构建高性能训练网络栈:优化 RDMA/RoCE v2 配置,调优 NCCL 通信参数,解决 AllReduce 瓶颈; 4. 集成并扩展主流训练框架(DeepSpeed, Megatron-LM, FSDP, JAX)与 通信库(NCCL, Gloo); 5. 设计训练任务可观测体系:监控 GPU 利用率、通信带宽、显存碎片、Loss 异常等关键指标; 6. 探索新型硬件协同优化:NVIDIA NIC(如 ConnectX-7)、GPU Direct RDMA(GDR)、NVLink 拓扑感知调度;
1.参与B站大模型训练平台建设,配合团队完成训练平台的架构细化与技术落地,参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代,保障训练平台基础功能稳定可靠; 2.参与大模型主流训练范式(预训练/后训练)的平台化集成工作,协助完成训练流程的标准化、自动化落地,降低算法团队训练门槛; 3.大模型训练全链路可观测性,参与设计并落地训练过程中的核心监控指标,为训练效率提升与问题定位提供数据支撑; 4.参与训练链路问题排查,配合算法与框架团队,跟踪大模型训练全链路,参与定位并解决训练过程中出现的平台层技术问题,如数据传输瓶颈、分布式训练通信异常等,保障训练任务顺利推进。

我们正在寻找一位专注于AI模型训练平台构建与优化的技术专家,负责模型训练平台及训练任务的优化,确保平台稳定性、高效率和可扩展。 1. 训练平台架构设计与构建。基于云原生技术设计和实现大规模AI模型训练平台,支持千卡规模以上的分布式训练任务;构建高效的资源调度和管理系统,优化GPU计算资源的利用率,确保平台的高性能和可扩展性。 2. 大规模训练稳定性优化。解决大规模训练过程中的稳定性问题,包括软硬件故障、通信瓶颈、数据同步与加速等;设计和实现容错机制,确保训练任务在硬件或网络故障时能够快速恢复。 3. 故障定位与诊断。设计和实现高效的故障定位系统,能够在大规模集群的复杂环境中快速定位故障点;利用日志分析、性能监控和分布式追踪技术,实时监控训练任务的运行状态,快速识别和修复问题;简化故障排查流程,减少人工干预。 4. 训练效率提升。利用大模型训练的优化技巧,结合自动驾驶场景的超大数据集,持续优化提升整体训练效率;