logo of antgroup

蚂蚁金服蚂蚁集团-存储系统研发专家-杭州/北京

社招全职3年以上技术-开发地点:北京 | 杭州状态:招聘

任职要求


1. 精通至少一门 Python/Go/C++ 等编程语言,并有良好的代码风格;
2. 具有训推场景存储系统设计与研发优化经验,例如分布式KV Cache/文件存储/对象存储等;
3. 了解主流训推框架原理和代码实现,例如TensorFlow/PyTorch/Megatron/Deepspeed/vLLM/Sglang等;
4. 好奇心强,热爱技术且对强化学习领域有深入钻研优先;

加分项:
1、熟悉至少一种主流的RLHF框架,如OpenRLHF/AReal/veRL/ChatLearn等;
2、熟悉GDR、GDS、RDMA、或有大规模训练网络通信优化经验;
3、有“以存代算”相关项目提高训推效率经验;
4、在计算机系统顶会OSDI/SOSP/FAST/ATC/EuroSys等上有文章发表经验。

工作职责


蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。
1、负责训推一体存储的设计与开发,建设面向训推一体的显存扩展和高性能数据存储方案,服务蚂蚁内部的强化学习场景;
2、负责整体性能优化与架构升级,通过存算结合持续提升训练/推理效率;
3、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
包括英文材料
Python+
Go+
C+++
TensorFlow+
PyTorch+
Megatron+
vLLM+
强化学习+
缓存+
DeepSpeed+
SGLang+
相关职位

logo of aliyun
社招5年以上技术类-开发

1. 负责超大规模分布式块存储数据面系统架构、设计和研发工作,制定技术演进计划,保障技术竞争力和生产稳定性 2. 负责基于硬件基础设施进行软硬一体优化设计和调优,提供业界优秀的块存储性能 3. 针对公共云、非公共云等场景,进行块存储数据链路和分布式存储相关系统研发,确保稳定可靠高性能,和多场景下块存储能力输出的一致性和技术先进性

更新于 2025-04-15
logo of aliyun
社招5年以上技术类-开发

1、负责块存储运维支撑系统的的设计、开发工作,制定技术演进路线并保持技术持续迭代升级,进而保障超大规模分布式块存储系统的生产稳定性。 2、负责块存储生产运维规则基线的定义和开发,通过交付部署管控、发布变更管控以及智能检测熔断能力,提供稳定安全可靠的基础环境。 3、针对大规模分布式块存储系统,负责构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的监控报警,并进行智能分析及根因定位。 4、负责运维能力的下沉,保障块存储运维支撑系统在线上线下能力的一致性。

更新于 2025-04-15
logo of antgroup
社招3年以上技术-开发

蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景; 2、建设面向训推一体的显存管理体系和高性能数据存储方案; 3、负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 4、负责整体性能优化与架构升级,持续提升训练/推理性能; 5、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2025-09-03
logo of aliyun
社招3年以上云智能集团

1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。

更新于 2025-09-29