蚂蚁金服蚂蚁数字科技-数字科技线-大模型训推引擎工程师

社招全职5年以上技术类-算法2026-06-24地点：北京 | 上海 | 杭州 | 深圳 | 成都状态：招聘

扫码手机上打开

任职要求

1.编程功底：熟练掌握 Python / C++，有 GPU 编程（CUDA / Triton）或分布式系统实战经验优先；
2.框架深度：对 Megatron-LM / DeepSpeed / vLLM / SGLang 中至少一项有源码级理解，而非…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

按方向划分，你将承担以下职责中一项或多项：
1.分布式训练方向：
（1）设计并调优大规模混合并行策略（TP/PP/DP/EP/CP 组合方案），持续提升集群 MFU；
（2）做训练性能 profiling 与全链路瓶颈攻坚，扛起训练稳定性终极排查（NCCL 超时、梯度异常、显存泄漏）；
（3）对 Megatron-LM / DeepSpeed 等训练框架做深度适配、魔改与 bug 修复，主导 mid-train 阶段的分布式方案设计与执行，与基座模型团队做核心技术对接；
2.推理服务方向：
（1）负责推理服务搭建与维护（vLLM / SGLang 部署、升级、深度调优）；
（2）推进批量推理优化与量化方案落地，在精度与吞吐之间找到商业最优解；
（3）建设 Checkpoint 管理与模型格式转换工具链，作为基模与算法团队之间的桥接层，提供日常 infra 支持；
3.Agentic RL 沙箱方向：
（1）从 0 到 1 搭建 Agentic RL 训练的沙箱环境基建，做多团队协作的技术枢纽；
（2）设计标准化的环境接口（observation / action / reward），保障沙箱的隔离性、容错与资源管控；
（3）优化沙箱吞吐与延迟，持续接入新工具与新环境；
4.大模型训练参与方向：
（1）负责专项数据合成，为模型训练提供高质量数据燃料；
（2）参与专项能力优化与模型训练，把引擎能力转化为真实的模型能力提升。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

C+++

CUDA+

Triton Inference Server+

分布式系统+

还有更多 •••

登录查看完整学习资料