logo of antgroup

蚂蚁金服蚂蚁集团-训推系统研发专家-杭州/北京/上海

社招全职3年以上技术-开发地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 精通至少一门 Python/Go/C++ 等编程语言,并有良好的代码风格;
2. 具有分布式系统服务/并行计算系统设计与研发优化经验;
3. 代码级精通主流深度学习框架及扩展库的使用及算子开发,例如TensorFlow/PyTorch/Megatron/Deepspeed/vLLM/Sglang等;
4…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。
1、负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景;
2、建设面向训推一体的显存管理体系和高性能数据存储方案;
3、负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等;
4、负责整体性能优化与架构升级,持续提升训练/推理性能;
5、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
包括英文材料
Python+
Go+
C+++
分布式系统+
系统设计+
深度学习+
TensorFlow+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术类-开发

1. 负责大模型分布式训练和推理研发,持续优化提升大模型训练框架(基于MegatronLM), 或推理框架(基于sglang 或 vllm) 的性能。 2. 深度参与原生多模态大模型研发,实现 基于MoE的多模态大模型架构 和 训练推理框架协同co-design,实现千亿级模型高效训练

更新于 2025-09-04北京|上海|杭州
logo of tencent
社招3年以上公共技术

1.深度协同算法团队,主导深度学习算法端到端推理系统的架构设计与落地实践,聚焦高吞吐、低延时核心目标,攻克大模型推理工程化落地关键技术瓶颈; 2.针对大模型推理全链路进行性能瓶颈深度剖析,通过算子优化、量化策略、资源调度等手段实现推理吞吐最大化;建立性能 - 成本评估体系,制定资源利用率极致优化方案,实现推理成本可控化; 3.主导大模型推理框架底层架构优化,完善框架功能模块(如动态批处理、推理缓存、容错机制);构建工程化能力体系,提升框架易用性(API 设计、配置化能力)与可调试性(日志系统、性能埋点、调试工具链),支撑大规模推理服务稳定迭代。

更新于 2026-01-23深圳
logo of antgroup
社招3年以上技术-开发

蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体存储的设计与开发,建设面向训推一体的显存扩展和高性能数据存储方案,服务蚂蚁内部的强化学习场景; 2、负责整体性能优化与架构升级,通过存算结合持续提升训练/推理效率; 3、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2025-09-03北京|杭州
logo of antgroup
社招2年以上技术-开发

蚂蚁ASystem会探索和构建高性能的 AI 自学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发新一代训推混合计算系统,优化训推分布式并行技术,实现大规模T级参数模型训练和 100X 性能提升; 2. 以“X+RL”范式建设新一代强化学习框架,实现多轮交互、过程奖励、大规模模拟环境等能力,支持各类智能体和搜索场景学习能力提升; 3. 结合软硬件优化分布式并行计算和调度系统,提升大模型在训推一体、长推理效率和弹性训练的能力,大幅降低智能计算成本;

更新于 2025-12-01北京|上海|杭州