logo of antgroup

蚂蚁金服蚂蚁集团-训推系统研发专家-杭州/北京/上海

社招全职3年以上技术-开发地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 精通至少一门 Python/Go/C++ 等编程语言,并有良好的代码风格;
2. 具有分布式系统服务/并行计算系统设计与研发优化经验;
3. 代码级精通主流深度学习框架及扩展库的使用及算子开发,例如TensorFlow/PyTorch/Megatron/Deepspeed/vLLM/Sglang等;
4…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。
1、负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景;
2、建设面向训推一体的显存管理体系和高性能数据存储方案;
3、负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等;
4、负责整体性能优化与架构升级,持续提升训练/推理性能;
5、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
包括英文材料
Python+
Go+
C+++
分布式系统+
系统设计+
深度学习+
TensorFlow+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术-基础平台

1. 负责大模型分布式训练/推理系统性能优化及配套工具研发,包括软硬件协同的模型结构设计与训推系统升级,覆盖MegatronLM、SGLang、Vllm、RL系统等,以及超大规模数据和模型参数下的存储、计算、网络联合优化。 2. 负责多模态数据提取系统研发,结合大模型、传统小模型、Agents等技术,以及异构计算下的流批一体系统,建设高质量多模态数据加工和分析系统。 3. 推动基础引擎与大模型、异构硬件等新技术形态的应用落地,保持在行业内的前沿水平。

更新于 2026-03-27北京|上海|杭州
logo of tencent
社招3年以上公共技术

1.深度协同算法团队,主导深度学习算法端到端推理系统的架构设计与落地实践,聚焦高吞吐、低延时核心目标,攻克大模型推理工程化落地关键技术瓶颈; 2.针对大模型推理全链路进行性能瓶颈深度剖析,通过算子优化、量化策略、资源调度等手段实现推理吞吐最大化;建立性能 - 成本评估体系,制定资源利用率极致优化方案,实现推理成本可控化; 3.主导大模型推理框架底层架构优化,完善框架功能模块(如动态批处理、推理缓存、容错机制);构建工程化能力体系,提升框架易用性(API 设计、配置化能力)与可调试性(日志系统、性能埋点、调试工具链),支撑大规模推理服务稳定迭代。

更新于 2026-01-23深圳
logo of antgroup
社招3年以上技术-开发

蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体存储的设计与开发,建设面向训推一体的显存扩展和高性能数据存储方案,服务蚂蚁内部的强化学习场景; 2、负责整体性能优化与架构升级,通过存算结合持续提升训练/推理效率; 3、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2025-09-03北京|杭州
logo of antgroup
社招2年以上技术-开发

蚂蚁ASystem会探索和构建高性能的 AI 自学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发新一代训推混合计算系统,优化训推分布式并行技术,实现大规模T级参数模型训练和 100X 性能提升; 2. 以“X+RL”范式建设新一代强化学习框架,实现多轮交互、过程奖励、大规模模拟环境等能力,支持各类智能体和搜索场景学习能力提升; 3. 结合软硬件优化分布式并行计算和调度系统,提升大模型在训推一体、长推理效率和弹性训练的能力,大幅降低智能计算成本;

更新于 2025-12-01北京|上海|杭州