logo of pinduoduo

拼多多大模型训练平台工程师

社招全职技术类地点:上海状态:招聘

任职要求


1)扎实的编程能力(Golang / Python),良好的数据结构算法基础;
2)理解分布式系统基本概念(通信、调度、容错);
3)熟悉 PyTorch 训练机制与源码结构;
4)具备性能分析能力(GPU 利用率 / 通信瓶颈);
5)理解大模型训练基本流程;
6)熟悉 Linux 系统、容器(Docker/K8s)及常见集群调度工具;
7)理解训练指标(收敛速度 / 稳定性 / 吞吐)。

加分项
加分项(满足部分即可)
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1)设计并维护支持千亿参数模型的分布式训练系统及作业调度、资源管控平台;
2)优化分布式训练资源调度管理能力,优化大规模GPU集群资源使用率;
3) 与基础团队合作,推进作业调度(如 Kubernetes / Slurm)、存储( CFS / PFS / OSS)、网络互联的联调优化;
4) 建设自动化的训练监控、Checkpoint 保存与容错恢复机制,降低大规模训练任务的中断损失;
5) 负责预训练数据的高效加载与预处理流程,确保 I/O 不成为训练瓶颈,支持 TB 级数据集的高效迭代;
6) 搭建实验管理、超参数追踪、可视化监控等工具链,支持研究团队快速迭代。
包括英文材料
Go+
Python+
数据结构+
算法+
分布式系统+
PyTorch+
大模型+
Linux+
Docker+
Kubernetes+
还有更多 •••
相关职位

logo of mihoyo
社招5年以上程序&技术类

1. 主导 基于 Kubernetes 的大规模训练作业调度系统 设计,支持千卡 GPU 集群的弹性伸缩、拓扑感知、容错恢复; 2. 深度优化训练资源利用率:实现 Gang Scheduling、Bin Packing、抢占式调度、Spot 实例混部; 3. 构建高性能训练网络栈:优化 RDMA/RoCE v2 配置,调优 NCCL 通信参数,解决 AllReduce 瓶颈; 4. 集成并扩展主流训练框架(DeepSpeed, Megatron-LM, FSDP, JAX)与 通信库(NCCL, Gloo); 5. 设计训练任务可观测体系:监控 GPU 利用率、通信带宽、显存碎片、Loss 异常等关键指标; 6. 探索新型硬件协同优化:NVIDIA NIC(如 ConnectX-7)、GPU Direct RDMA(GDR)、NVLink 拓扑感知调度;

上海|北京
logo of bilibili
社招3年以上技术类

1.参与B站大模型训练平台建设,配合团队完成训练平台的架构细化与技术落地,参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代,保障训练平台基础功能稳定可靠; 2.参与大模型主流训练范式(预训练/后训练)的平台化集成工作,协助完成训练流程的标准化、自动化落地,降低算法团队训练门槛; 3.大模型训练全链路可观测性,参与设计并落地训练过程中的核心监控指标,为训练效率提升与问题定位提供数据支撑; 4.参与训练链路问题排查,配合算法与框架团队,跟踪大模型训练全链路,参与定位并解决训练过程中出现的平台层技术问题,如数据传输瓶颈、分布式训练通信异常等,保障训练任务顺利推进。

更新于 2026-03-23上海
logo of horizon
社招软件序列

我们正在寻找一位专注于AI模型训练平台构建与优化的技术专家,负责模型训练平台及训练任务的优化,确保平台稳定性、高效率和可扩展。 1. 训练平台架构设计与构建。基于云原生技术设计和实现大规模AI模型训练平台,支持千卡规模以上的分布式训练任务;构建高效的资源调度和管理系统,优化GPU计算资源的利用率,确保平台的高性能和可扩展性。 2. 大规模训练稳定性优化。解决大规模训练过程中的稳定性问题,包括软硬件故障、通信瓶颈、数据同步与加速等;设计和实现容错机制,确保训练任务在硬件或网络故障时能够快速恢复。 3. 故障定位与诊断。设计和实现高效的故障定位系统,能够在大规模集群的复杂环境中快速定位故障点;利用日志分析、性能监控和分布式追踪技术,实时监控训练任务的运行状态,快速识别和修复问题;简化故障排查流程,减少人工干预。 4. 训练效率提升。利用大模型训练的优化技巧,结合自动驾驶场景的超大数据集,持续优化提升整体训练效率;

更新于 2026-01-23北京
logo of baidu
社招3年以上ACG

-为视觉大模型项目交付的方案、质量、效率负责 -完成项目交付过程中的技术对接、方案设计及核心功能的开发 -参与团队开发过程中的Code Review、文档撰写、复杂问题排查等工作 -参与团队公共技术组件的抽象、沉淀和架构优化

更新于 2025-04-24北京