蚂蚁金服蚂蚁集团-集合通信研发工程师/专家-杭州/成都/北京

社招全职3年以上技术类-开发2025-04-03地点：北京 | 杭州 | 成都状态：招聘

扫码手机上打开

任职要求

● 熟练掌握 C、C++、Golang 一种或多种语言，3年以上系统软件开发经验；
● 具备扎实的 Linux/Network/GPU 等系统基础知识；
● 深入研究和应用集合通信相关技术，有通信压缩、通信算子优化、通信 Slow/Hang 诊断等经验；
● …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是蚂蚁集团网络技术团队，为蚂蚁集团全站提供通智一体、稳定高效的网络基础设施产品、平台和服务。
● 负责集合通信库的设计和研发；
● 通过稳定性建设和通信优化提升大模型训练效率和减少推理成本；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Go+

Linux+

还有更多 •••

登录查看完整学习资料

相关职位

业务技术-大模型后训练平台稳定性研发工程师 / 专家-AI infra

社招2年以上

1. 立足AI Agent研发运维视角，贯穿整个技术栈，在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS，进行模型训练与推理的算力保障，并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性，适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题，并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力，响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练（SFT、RLHF/RLAIF 等）相关链路稳定性治理、规范建设：理解研发与优化 LLM + RL/HRF 相关训练框架，提升扩展性、稳定性与性能（吞吐、显存占用、收敛效率等）。结合分布式训练技术（如 tensor / pipeline / data parallel），优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量：建设训练平台的观测与运维体系，完善监控、告警、日志与故障排查工具；持续提升平台的稳定性、可调试性和可维护性，产出高质量技术文档与设计方案。

更新于 2025-12-15杭州

【算法平台】分布式训练框架工程师/专家

社招3年以上技术类

团队负责研发一站式搜广推模型机器学习平台，该岗位专注于面向搜索/推荐/广告场景的机器学习分布式训练系统研发 1、负责研发搜广推稀疏大模型分布式GPU同步训练框架，支持GPU单机多卡、多机多卡训练，支持稀疏参数的多级缓存架构和异步流水训练，满足搜广推稀疏大模型离线训练、在线学习、特征准入和淘汰等算法需求； 2、负责TensorFlow/Pytorch框架的后端GPU训练性能优化，个别自定义GPU算子的cuda kernel开发和优化； 3、参与样本数据平台、搜推模型全链路解决方案、LLM4REC等重要方向的研发，提升平台的效率和易用性，加速算法同学的模型迭代效率。

更新于 2023-12-26北京

大模型训练框架研发工程师-精调/蒸馏方向

社招3年以上CSIG技术

1.框架开发与优化：负责强化学习、模型精调、知识蒸馏等核心模块的设计与开发，提升框架的训练效率与易用性； 2.分布式训练支持：基于Megatron-LM、DeepSpeed等工具，优化大模型分布式训练策略（数据并行/张量并行/流水并行/专家并行等），解决显存、通信与计算瓶颈； 3.工具链构建：参与开发轻量化训练框架（如LLama-Factory、swift），支持快速模型微调、部署及多硬件平台适配； 4.前沿技术探索：跟踪学术动态（如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等），将最新研究成果转化为框架功能，提升产品竞争力； 5.协作与文档：与产品团队紧密配合，提供框架级解决方案；编写技术文档与案例，赋能公有云客户。

更新于 2025-06-17上海

腾讯云-集合通信高级研发工程师

社招3年以上腾讯云-网络技术

1.支持腾讯云客户在AI场景中网络和集合通信的性能调优； 2.AI场景不同机型上网络和集合通信方面的适配优化； 3.集合通信库及配套解决方案的研发优化，提升腾讯云HCC产品在通信层面的竞争力。

更新于 2025-09-05深圳