蚂蚁金服蚂蚁集团-AI基础系统研发专家-杭州/北京
任职要求
1. 具有至少 2 年以上的AI系统/任务调度/高性能并行计算领域研发经验; 2. 熟悉 Transformer/MoE 等大模型结构原理、分布式调度系统、大模型训练/推理/Agent 系统、高性能软硬件架构等任一领域的专业知识; 3. 熟悉 s…
工作职责
蚂蚁ASystem会探索和构建高性能的 AI 自学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发新一代训推混合计算系统,优化训推分布式并行技术,实现大规模T级参数模型训练和 100X 性能提升; 2. 以“X+RL”范式建设新一代强化学习框架,实现多轮交互、过程奖励、大规模模拟环境等能力,支持各类智能体和搜索场景学习能力提升; 3. 结合软硬件优化分布式并行计算和调度系统,提升大模型在训推一体、长推理效率和弹性训练的能力,大幅降低智能计算成本;
蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体存储的设计与开发,建设面向训推一体的显存扩展和高性能数据存储方案,服务蚂蚁内部的强化学习场景; 2、负责整体性能优化与架构升级,通过存算结合持续提升训练/推理效率; 3、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景; 2、建设面向训推一体的显存管理体系和高性能数据存储方案; 3、负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 4、负责整体性能优化与架构升级,持续提升训练/推理性能; 5、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
ASystem 会探索和构建高性能的 AI 强化学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发 Agentic 强化学习工程,包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力; 2. 研发工具和 Agent 合成工程,包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景; 3. 研发环境工程和高性能 sandbox 引擎技术,包括多语言执行环境、桌面虚拟化渲染、大型程序虚拟环境等场景,满足大规模并发调用、极速启动、安全隔离等能力;
职位描述: 在阿里云全面拥抱公共云+AI智算领域这一背景下,阿里云操作系统研发团队和操作系统实验室紧密围绕云AI安全场景展开技术创新、预研和开发,对外结合开源安全技术手段并携手外部生态合作伙伴,共同打造社区和生态的领导力和竞争力,对内结合供应链安全、合规、评测、标准化等手段,积极与内部业务展开合作,服务并支撑好阿里云的AI愿景。 该职位是阿里云操作系统研发团队和操作系统实验室的系统安全团队的研发职位,要求如下: 1. 参与面向云端服务器操作系统安全子领域的技术方案设计、产品化研发工作以及相关开源社区的技术研发工作; 2. 参与安全合规、评测、标准制定等与安全流程相关的研发和运营工作; 3. 结合业务发展需求以及技术趋势,在面向云端服务器操作系统安全领域进行技术创新相关的研发工作。