蚂蚁金服蚂蚁集团-测试开发专家-大模型训练推理-杭州/北京Z

社招全职3年以上技术类-质量保证2025-07-25地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 3-5 年测试工作经验，有 AI/计算/存储引擎/基础设施质量工作背景，有白盒测试、性能测试、混沌工程测试经验。
2. 具备 AI 基础设施或大数据计算存储或大规模分布式系统测试经验，或有 AI/大数据计算/存储相关技术背景，了解业内常见 AI 训练推理引擎、大数据计算存储引擎者优先。
3. 熟练掌握Java/C++/Python或其他脚…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责蚂蚁 AI 基础设施中推理、后训练、管控面链路、AI 存储等关键基础设施的质量保障工作，面向重点项目中的业务压力与挑战，补位项目不确定模块/组件的质量保障工作。
2. 主导项目全链路质量保障和风险识别工作，搭建质量技术保障体系、制定质量保障规范、推进测试工作执行。与项目中多角色、多合作团队形成积极有效的沟通和互动，驱动问题解决，保障交付质量。
3. 主动创新，通过技术手段解决质量保障工作中的复杂技术问题，提升测试效能、加深质量工作技术积累。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大数据+

分布式系统+

推理引擎+

Java+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-软硬件系统架构与解决方案专家-北京/杭州

社招5年以上云智能集团

1. 负责算力引入的前置测试，主要包含整机压测，部件性能测试，多机训练/推理单集群多品牌机器混部场景测试。 2. 负责算力引入GPU软硬件结合的疑难故障&性能问题分析和解决。 3. 负责GPU压测，监控，故障诊断工具开发和优化。 4. 负责主流模型和应用在新异构系统上的性能评测和分析。 5. 负责分析大规模LLM在训练和推理中面临的的AI异构硬件系统瓶颈，提出面向未来的AI异构系统架构建议，以支撑更高效的LLM扩展。

更新于 2025-11-26北京|杭州

阿里云智能-网络研发通信库技术专家-北京/杭州

社招5年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展，分析前沿技术和网络的关联以及优化方向； • 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化； 2、技术实现 • 负责AI计算系统的通信库的设计研发、以优化 • 对技术方案进行分析拆解，制定任务目标和产出规范，完成关键模块的设计、编码开发和系统功能实现 • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠 • 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的产品技术和趋势，根据业务需要提供新的技术支持和建议。 5、技术规划 • 理解业务战略及重点，基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-18北京|杭州

阿里云智能-AI集群通信优化高级技术专家-北京/杭州

社招8年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展，分析计算通信协同优化的技术方案； • 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化； 2、技术实现 • 负责AI计算系统的通信优化方案设计，包括计算通信协同优化、通信库研发测试、以及交付与支持； • 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现； • 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等； • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署； • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠； • 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能。 4、技术预研 • 分析AI业务通信pattern和发展趋势，探索通信库的优化空间，以及AI计算系统全栈的协同设计，提升系统端到端的稳定性和性能。 5、技术规划 • 理解业务战略及重点，基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-25北京|杭州

阿里云智能-AI基础设施解决方案架构师-上海/杭州/北京

社招5年以上云智能行业解决方

1、深入理解客户业务需求，帮助客户选择适合其业务场景的技术路径和产品组合，利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC，含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判，推动产研部门持续优化产品，助力提升产品竞争力，同时沉淀最佳实践，以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势，并与产品团队协作，打造创新的人工智能（大模型、智算、一体机等）解决方案 5、支持市场活动，作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动，并在行业峰会、技术沙龙等市场活动中进行技术传播和分享

更新于 2025-06-16北京|杭州|上海