阿里云阿里云智能-稳定性SRE（AI & 云方向）-杭州/北京

社招全职5年以上云智能集团2026-03-27地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 5年以上云计算/2年以上AI相关工作经验，具备某一大产品领域知识（基础设施，数据域，云原生）+AI领域知识，经历过大型互联网系统的保障建设以及AI系统建设
2. 对云计算SRE有丰富的实战经验，如系统的高可用性架构实现、稳定性保障和提升，预案/演练/保障，协助业务开发团队实现系统的端到端可靠性。
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 深入了解百炼整体技术架构和调用链路，协助百炼产品团队完善基础设施管理，含CMDB构建，资源管理，账号管理等。
2. 深入了解百炼依赖的核心云产品组件，提供核心云产品在资源层面以及业务层面的保障支持， 含最佳实践、风险治理（监控，巡检、风险管理）、容量管理，业务优化，变更管理以及重保等支持。
3. 从稳定性角度出发，通过故障治理，抽象百炼共性问题和核心风险，形成解决方案并通过联合专项的方式推动落地，含弹性扩容优化、限流降级、隔离，可观测性等能力提升等，提升百炼全链路稳定性。
4. 为千问，钉钉，QTeam等提供SRE支持，提升用云，用AI稳定性和体验。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

高可用+

相关职位

稳定性高级SRE/架构师-国际支付

社招3年以上A198390

1、全面提升国际支付稳定性与MTTR，持续优化国际支付业务与技术体系的质量、成本和效率水平； 2、负责规划、建设并落地国际支付业务运维保障方案，针对海外支付场景提升故障发现、应急响应和止损能力； 3、参与SRE AI agent的建设，结合国际支付技术风险和SRE专业实践，提升SRE和国际支付技术团队效率和质量。

更新于 2023-11-24深圳

稳定性高级SRE/架构师-国际支付

社招3年以上A113037

更新于 2023-11-24杭州

SRE AI高级工程师-基础架构

社招5年以上A79398

1、负责海量高性能GPU/XPU卡的资源交付与一致性保障，涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理； 2、学习并深入了解GPU业务方的使用姿势和训练框架，掌握前沿AI大模型技术，解决超大规模场景下的稳定性挑战，涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用； 3、构建自动化工程，确保生产环境的稳定性和资源在线率，及时发现并隔离故障GPU资源，提高资源流转效率； 4、通过优秀的工程架构设计，参与生产集群和服务的整个生命周期，满足可持续发展的需求并提高系统稳定性，包括架构规划、评审、设计、部署和上线等环节。

更新于 2025-05-20杭州

SRE AI高级工程师-基础架构

社招5年以上A118276A

更新于 2025-04-22上海