logo of antgroup

蚂蚁金服蚂蚁集团-集合通信研发工程师/专家-杭州/成都/北京

社招全职3年以上技术类-开发地点:北京 | 杭州 | 成都状态:招聘

任职要求


● 熟练掌握 CC++Golang 一种或多种语言,3年以上系统软件开发经验;
● 具备扎实的 Linux/Network/GPU 等系统基础知识;
● 深入研究和应用集合通信相关技术,有通信压缩、通信算子优化、通信 Slow/Hang 诊断等经验;
● 熟悉主流训练和推理框架通信性能优化,例如pytorch megatron、vllm等3D并行策略和算子优化,MoE关键通信算子优化等;
● 熟练掌握 NCCL、HCCL等集合通信库,有开源代码贡献更佳;
● 掌握性能分析和调优手段,对系统稳定性、扩展性有思考;

工作职责


我们是蚂蚁集团网络技术团队,为蚂蚁集团全站提供通智一体、稳定高效的网络基础设施产品、平台和服务。
● 负责集合通信库的设计和研发;
● 通过稳定性建设和通信优化提升大模型训练效率和减少推理成本;
包括英文材料
C+
C+++
Go+
Linux+
PyTorch+
Megatron+
大模型+
性能调优+
相关职位

logo of dewu
社招3年以上技术类

团队负责研发一站式搜广推模型机器学习平台,该岗位专注于面向搜索/推荐/广告场景的机器学习分布式训练系统研发 1、负责研发搜广推稀疏大模型分布式GPU同步训练框架,支持GPU单机多卡、多机多卡训练,支持稀疏参数的多级缓存架构和异步流水训练,满足搜广推稀疏大模型离线训练、在线学习、特征准入和淘汰等算法需求; 2、负责TensorFlow/Pytorch框架的后端GPU训练性能优化,个别自定义GPU算子的cuda kernel开发和优化; 3、参与样本数据平台、搜推模型全链路解决方案、LLM4REC等重要方向的研发,提升平台的效率和易用性,加速算法同学的模型迭代效率。

更新于 2023-12-26
logo of tencent
社招3年以上CSIG技术

1.框架开发与优化:负责强化学习、模型精调、知识蒸馏等核心模块的设计与开发,提升框架的训练效率与易用性; 2.分布式训练支持:基于Megatron-LM、DeepSpeed等工具,优化大模型分布式训练策略(数据并行/张量并行/流水并行/专家并行等),解决显存、通信与计算瓶颈; 3.工具链构建:参与开发轻量化训练框架(如LLama-Factory、swift),支持快速模型微调、部署及多硬件平台适配; 4.前沿技术探索:跟踪学术动态(如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等),将最新研究成果转化为框架功能,提升产品竞争力; 5.协作与文档:与产品团队紧密配合,提供框架级解决方案;编写技术文档与案例,赋能公有云客户。

更新于 2025-06-17
logo of tencent
社招3年以上腾讯云-网络技术

1.支持腾讯云客户在AI场景中网络和集合通信的性能调优; 2.AI场景不同机型上网络和集合通信方面的适配优化; 3.集合通信库及配套解决方案的研发优化,提升腾讯云HCC产品在通信层面的竞争力。

更新于 2025-09-05
logo of tencent
社招3年以上TEG技术

1.通信算子开发:设计和实现大模型训练/推理场景下的高效集合通信算子(AllReduce、AllGather、ReduceScatter、AllToAll等); 2.通信计算融合:设计通信与计算的overlap策略,实现计算通信并行,提升大模型整体训练/推理性能; 3.通信性能调优:针对不同硬件平台(GPU、NPU等)进行算子性能分析和优化,解决性能瓶颈问题; 4.参与AI通信库整体架构设计,制定技术方案和开发规范。

更新于 2025-06-05