蚂蚁金服蚂蚁集团-存储系统研发专家-杭州/北京

社招全职3年以上技术-开发2025-09-03地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 精通至少一门 Python/Go/C++ 等编程语言，并有良好的代码风格；
2. 具有训推场景存储系统设计与研发优化经验，例如分布式KV Cache/文件存储/对象存储等；
3. 了解主流训推框架原理和代码实现，例如TensorFlow/PyTorch/Megatron/Deepspeed/vLLM/Sglang等；
4. 好奇心强，热爱技术且…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

蚂蚁ASystem致力于打造下一代AI基础软件，并基于下一代的AI基础软件寻找通用智能的新方法，追求智能上限。
1、负责训推一体存储的设计与开发，建设面向训推一体的显存扩展和高性能数据存储方案，服务蚂蚁内部的强化学习场景；
2、负责整体性能优化与架构升级，通过存算结合持续提升训练/推理效率；
3、与算法工程师深度合作，为重点项目进行算法与系统的联合优化。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

Go+

C+++

TensorFlow+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-块存储研发专家-杭州/北京

社招5年以上技术类-开发

1. 负责超大规模分布式块存储数据面系统架构、设计和研发工作，制定技术演进计划，保障技术竞争力和生产稳定性 2. 负责基于硬件基础设施进行软硬一体优化设计和调优，提供业界优秀的块存储性能 3. 针对公共云、非公共云等场景，进行块存储数据链路和分布式存储相关系统研发，确保稳定可靠高性能，和多场景下块存储能力输出的一致性和技术先进性

更新于 2025-04-15北京|杭州

阿里云智能-存储运维系统研发专家-杭州/北京

社招5年以上技术类-开发

1、负责块存储运维支撑系统的的设计、开发工作，制定技术演进路线并保持技术持续迭代升级，进而保障超大规模分布式块存储系统的生产稳定性。 2、负责块存储生产运维规则基线的定义和开发，通过交付部署管控、发布变更管控以及智能检测熔断能力，提供稳定安全可靠的基础环境。 3、针对大规模分布式块存储系统，负责构建安全合规的可观测系统，包括机器、网络、用户、业务指标等各类监控，提供秒级的监控报警，并进行智能分析及根因定位。 4、负责运维能力的下沉，保障块存储运维支撑系统在线上线下能力的一致性。

更新于 2025-04-15北京|杭州

蚂蚁集团-训推系统研发专家-杭州/北京/上海

社招3年以上技术-开发

蚂蚁ASystem致力于打造下一代AI基础软件，并基于下一代的AI基础软件寻找通用智能的新方法，追求智能上限。 1、负责训推一体框架的设计与开发，服务蚂蚁内部的强化学习场景； 2、建设面向训推一体的显存管理体系和高性能数据存储方案； 3、负责实时高性能训推系统设计与开发，如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等； 4、负责整体性能优化与架构升级，持续提升训练/推理性能； 5、与算法工程师深度合作，为重点项目进行算法与系统的联合优化。

更新于 2026-01-07北京|杭州|上海

阿里云智能-百炼模型服务运行时技术专家/高级专家-杭州/北京

社招4年以上云智能集团

1. 核心系统研发（1）设计与优化大模型推理服务框架与分布式缓存系统。（2）支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。（3）开发工具链与服务化能力，包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化（1）优化推理服务框架的性能，包括引擎适配、生命周期管理和资源调度。（2）深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。（3）支持高性能通信协议、容错与负载均衡机制。（4）提升系统可观测性，完善监控、告警与故障恢复体系。 3. 引擎与应用集成（1）深度集成推理引擎、缓存系统和存储系统，优化访问模式与架构设计。（2）满足大规模、多模态推理场景下的高吞吐与低延迟需求。

更新于 2026-01-07北京|杭州