蚂蚁金服蚂蚁集团-AI基础系统研发专家-杭州/北京
任职要求
1. 具有至少 2 年以上的AI系统/任务调度/高性能并行计算领域研发经验; 2. 熟悉 Transformer/MoE 等大模型结构原理、分布式调度系统、大模型训练/推理/Agent 系统、高性能软硬件架构等任一领域的专业知识; 3. 熟悉 s…
工作职责
蚂蚁ASystem会探索和构建高性能的 AI 自学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发新一代训推混合计算系统,优化训推分布式并行技术,实现大规模T级参数模型训练和 100X 性能提升; 2. 以“X+RL”范式建设新一代强化学习框架,实现多轮交互、过程奖励、大规模模拟环境等能力,支持各类智能体和搜索场景学习能力提升; 3. 结合软硬件优化分布式并行计算和调度系统,提升大模型在训推一体、长推理效率和弹性训练的能力,大幅降低智能计算成本;
蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体存储的设计与开发,建设面向训推一体的显存扩展和高性能数据存储方案,服务蚂蚁内部的强化学习场景; 2、负责整体性能优化与架构升级,通过存算结合持续提升训练/推理效率; 3、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景; 2、建设面向训推一体的显存管理体系和高性能数据存储方案; 3、负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 4、负责整体性能优化与架构升级,持续提升训练/推理性能; 5、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
1. 参与阿里云的安全保障平台与工具研发,结合AI,打造支撑全阿里云产品业务,覆盖应用安全、网络安全、数据安全与内容安全防护、零信任认证与访问控制、DevSecOps全链路安全运营等全方位能力的云安全保障基础设施; 2. 参与系统的架构设计与演进规划,结合业务实际情况综合考虑系统的安全性、稳定性、可扩展性、性能和使用体验,对系统持续优化,确保能够满足持续发展的业务形态与规模对安全基础设施的需求; 3. 把握安全与服务端研发领域的技术演进趋势,对有价值的新技术进行调研并探索落地,在安全领域应用AI技术,保持阿里云安全基础设施的技术先进性。
1.技术方案设计 • 参与智能数据系统的高性能架构升级和优化工作,解决数据密集型系统的稳定性、性能、安全等目标设计相应的技术方案,并明确方案目标、范围和交付成果; • 参与智能数据系统的数据质量定义和优化工作,基于业务定义数据质量标准,并设计相应的技术方案提升或者保持数据质量SLA水平; • 参与面向多云多单元体系下的智能数据系统的交付部署方案设计。 2.技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责架构性能优化及系统调优,解决系统服务能力提升及优化; • 负责核心功能的架构与代码模板的编写,开发与维护管控系统核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3.安全、稳定、效率和性能优化 • 通过数据分析,稳定性研究和性能测试,持续推动升级和优化智能数据系统架构,实现高可用、高性能的数据密集型系统; • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高数据密集型系统的稳定性和数据查询分析效率。 4.技术预研 • 跟踪和了解国内外云计算技术、大数据技术、AI Agent技术的发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5.技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。