蚂蚁金服蚂蚁集团-测试开发专家-大模型训练推理-杭州/北京Z
任职要求
1. 3-5 年测试工作经验,有 AI/计算/存储引擎/基础设施质量工作背景,有白盒测试、性能测试、混沌工程测试经验。 2. 具备 AI 基础设施或大数据计算存储或大规模分布式系统测试经验,或有 AI/大数据计算/存储相关技术背景,了解业内常见 AI 训练推理引擎、大数据计算存储引擎者优先。 3. 熟练掌握Java/C++/Python或其他脚…
工作职责
1. 负责蚂蚁 AI 基础设施中推理、后训练、管控面链路、AI 存储等关键基础设施的质量保障工作,面向重点项目中的业务压力与挑战,补位项目不确定模块/组件的质量保障工作。 2. 主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行。与项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。 3. 主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。
1. 负责大模型训练、推理、评测、部署等核心链路的质量保障体系建设。 2. 设计并实现自动化评测框架,支持多维度(如准确性、一致性、安全性、推理速度等)的模型能力评估。 3. 构建高质量、可扩展的评测数据集,制定科学、可量化的评测标准与指标体系。 4. 推动CI/CD流程在大模型工程中的落地,保障模型迭代的稳定性与可回溯性。 5. 主导Bad Case分析闭环机制,联动算法、工程与业务团队优化模型表现。
1.技术方案设计 • 调研AI大模型训练及推理的前沿技术发展,分析前沿技术和网络的关联以及优化方向 • 分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化 2.技术实现 • 负责AI计算系统的通信库研发、测试、以及交付与支持 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3.稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4.技术预研 • 分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能 5.技术规划 • 理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。
1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展,分析前沿技术和网络的关联以及优化方向; • 分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化; 2、技术实现 • 负责AI计算系统的通信库研发、测试、以及交付与支持 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能 5、技术规划 • 理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。