logo of antgroup

蚂蚁金服蚂蚁集团-训推系统研发专家-杭州/北京/上海

社招全职3年以上技术-开发地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 精通至少一门 Python/Go/C++ 等编程语言,并有良好的代码风格;
2. 具有分布式系统服务/并行计算系统设计与研发优化经验;
3. 代码级精通主流深度学习框架及扩展库的使用及算子开发,例如TensorFlow/PyTorch/Megatron/Deepspeed/vLLM/Sglang等;
4. 好奇心强,热爱技术且对强化学习领域有深入钻研优先;

加分项:
1、熟悉至少一种主流的RLHF框架,如OpenRLHF/veRL/AReal/ChatLearn等;
2、熟悉Ray框架或其他强化学习相关计算框架;
3、在计算机系统网络顶会OSDI/SOSP/NSDI/ATC/EuroSys上有文章发表经验

工作职责


蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。
1、负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景;
2、建设面向训推一体的显存管理体系和高性能数据存储方案;
3、负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等;
4、负责整体性能优化与架构升级,持续提升训练/推理性能;
5、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
包括英文材料
Python+
Go+
C+++
分布式系统+
系统设计+
深度学习+
TensorFlow+
PyTorch+
Megatron+
vLLM+
强化学习+
Ray+
DeepSpeed+
SGLang+
相关职位

logo of antgroup
社招2年以上技术-开发

蚂蚁ASystem会探索和构建高性能的 AI 自学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发新一代训推混合计算系统,优化训推分布式并行技术,实现大规模T级参数模型训练和 100X 性能提升; 2. 以“X+RL”范式建设新一代强化学习框架,实现多轮交互、过程奖励、大规模模拟环境等能力,支持各类智能体和搜索场景学习能力提升; 3. 结合软硬件优化分布式并行计算和调度系统,提升大模型在训推一体、长推理效率和弹性训练的能力,大幅降低智能计算成本;

更新于 2025-09-03
logo of antgroup
社招3年以上技术类-开发

1. 负责大模型分布式训练和推理研发,持续优化提升大模型训练框架(基于MegatronLM), 或推理框架(基于sglang 或 vllm) 的性能。 2. 深度参与原生多模态大模型研发,实现 基于MoE的多模态大模型架构 和 训练推理框架协同co-design,实现千亿级模型高效训练

更新于 2025-09-04
logo of antgroup
社招3年以上技术-开发

蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体存储的设计与开发,建设面向训推一体的显存扩展和高性能数据存储方案,服务蚂蚁内部的强化学习场景; 2、负责整体性能优化与架构升级,通过存算结合持续提升训练/推理效率; 3、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2025-09-03
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14