拼多多大模型训练平台工程师

社招全职技术类2026-04-30地点：上海状态：招聘

扫码手机上打开

任职要求

1）扎实的编程能力（Golang / Python），良好的数据结构与算法基础；
2）理解分布式系统基本概念（通信、调度、容错）；
3）熟悉 PyTorch 训练机制与源码结构；
4）具备性能分析能力（GPU 利用率 / 通信瓶颈）；
5）理解大模型训练基本流程；
6）熟悉 Linux 系统、容器（Docker/K8s）及常见集群调度工具；
7）理解训练指标（收敛速度 / 稳定性 / 吞吐）。

加分项
加分项（满足部分即可）
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1）设计并维护支持千亿参数模型的分布式训练系统及作业调度、资源管控平台；
2）优化分布式训练资源调度管理能力，优化大规模GPU集群资源使用率；
3) 与基础团队合作，推进作业调度（如 Kubernetes / Slurm）、存储（ CFS / PFS / OSS）、网络互联的联调优化；
4) 建设自动化的训练监控、Checkpoint 保存与容错恢复机制，降低大规模训练任务的中断损失；
5) 负责预训练数据的高效加载与预处理流程，确保 I/O 不成为训练瓶颈，支持 TB 级数据集的高效迭代；
6) 搭建实验管理、超参数追踪、可视化监控等工具链，支持研究团队快速迭代。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Go+

Python+

数据结构+

算法+

分布式系统+

PyTorch+

大模型+

Linux+

Docker+

Kubernetes+

还有更多 •••

登录查看完整学习资料

相关职位

大模型训练平台研发工程师

社招5年以上程序&技术类

1. 主导基于 Kubernetes 的大规模训练作业调度系统设计，支持千卡 GPU 集群的弹性伸缩、拓扑感知、容错恢复； 2. 深度优化训练资源利用率：实现 Gang Scheduling、Bin Packing、抢占式调度、Spot 实例混部； 3. 构建高性能训练网络栈：优化 RDMA/RoCE v2 配置，调优 NCCL 通信参数，解决 AllReduce 瓶颈； 4. 集成并扩展主流训练框架（DeepSpeed, Megatron-LM, FSDP, JAX）与通信库（NCCL, Gloo）； 5. 设计训练任务可观测体系：监控 GPU 利用率、通信带宽、显存碎片、Loss 异常等关键指标； 6. 探索新型硬件协同优化：NVIDIA NIC（如 ConnectX-7）、GPU Direct RDMA（GDR）、NVLink 拓扑感知调度；

上海|北京

大模型平台研发工程师 - 训练方向

社招3年以上技术类

1.参与B站大模型训练平台建设，配合团队完成训练平台的架构细化与技术落地，参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代，保障训练平台基础功能稳定可靠； 2.参与大模型主流训练范式（预训练/后训练）的平台化集成工作，协助完成训练流程的标准化、自动化落地，降低算法团队训练门槛； 3.大模型训练全链路可观测性，参与设计并落地训练过程中的核心监控指标，为训练效率提升与问题定位提供数据支撑； 4.参与训练链路问题排查，配合算法与框架团队，跟踪大模型训练全链路，参与定位并解决训练过程中出现的平台层技术问题，如数据传输瓶颈、分布式训练通信异常等，保障训练任务顺利推进。

更新于 2026-03-23上海

模型训练平台开发工程师

社招软件序列

我们正在寻找一位专注于AI模型训练平台构建与优化的技术专家，负责模型训练平台及训练任务的优化，确保平台稳定性、高效率和可扩展。 1. 训练平台架构设计与构建。基于云原生技术设计和实现大规模AI模型训练平台，支持千卡规模以上的分布式训练任务；构建高效的资源调度和管理系统，优化GPU计算资源的利用率，确保平台的高性能和可扩展性。 2. 大规模训练稳定性优化。解决大规模训练过程中的稳定性问题，包括软硬件故障、通信瓶颈、数据同步与加速等；设计和实现容错机制，确保训练任务在硬件或网络故障时能够快速恢复。 3. 故障定位与诊断。设计和实现高效的故障定位系统，能够在大规模集群的复杂环境中快速定位故障点；利用日志分析、性能监控和分布式追踪技术，实时监控训练任务的运行状态，快速识别和修复问题；简化故障排查流程，减少人工干预。 4. 训练效率提升。利用大模型训练的优化技巧，结合自动驾驶场景的超大数据集，持续优化提升整体训练效率；

更新于 2026-01-23北京

JD-一见视觉大模型平台研发工程师TA（J84486）

社招3年以上ACG

-为视觉大模型项目交付的方案、质量、效率负责 -完成项目交付过程中的技术对接、方案设计及核心功能的开发 -参与团队开发过程中的Code Review、文档撰写、复杂问题排查等工作 -参与团队公共技术组件的抽象、沉淀和架构优化

更新于 2025-04-24北京