阿里云阿里云智能-SRE工程师-上海

社招全职5年以上云智能集团2026-01-20地点：上海状态：招聘

扫码手机上打开

任职要求

1. 扎实的运维功底和编程能力，精通Linux系统与Shell，熟练掌握至少一门自动化脚本/工具开发语言（如 Go, Python）；
2. 深入理解云原生技术栈，具备生产环境Kubernetes(K8s)集群的运维管理经验，并熟悉阿里云等主流公有云产品；
3. 熟悉主流监控体系（如Prometheus, Grafana），并具备大数据组件（如Flink, Kafka）或数据库（如MySQL, Redis）的运维经验；
4. 优秀…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责AI交易平台业务的云原生基础设施建设与运维，保障Kubernetes(K8s)平台及容器化应用的高可用、高性能；
2. 负责基础设施全生命周期管理，包括但不限于阿里云资源、Flink实时计算集群，以及AI应用所需的MCP服务、Runtime调度、模型服务等组件的部署、监控、优化与故障排查；
3. 参与SRE体系的架构设计与技术演进，通过IaC（基础设施即代码）、CI/CD等理念，主导或参与自动化运维平台/工具的开发，提升研发与交付效率；
4. 关注云原生及AI基础设施领域的技术发展趋势，并将其应用于稳定性保障、成本优化和效率提升的实践中。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

Bash+

脚本+

Go+

Python+

Kubernetes+

Prometheus+

Grafana+

大数据+

还有更多 •••

登录查看完整学习资料

相关职位

AML 机器学习系统SRE工程师-上海

社招1年以上A159796

AML（Applied Machine Learning）机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地，提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验，为全公司的产品和业务提供核心技术支持和服务。 1、负责维护机器学习系统的稳定运转，支持模型开发、训练与部署的多个环节； 2、负责资源的管理与规划，成本与预算，包括: GPU/CPU机器资源，存储等资源； 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理； 4、负责集群、业务服务的稳定性治理，资源利用率提升和运维人效提升。

更新于 2024-01-03上海

SRE工程师-AI平台（上海/北京/深圳）

社招A194327C

1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务； 2、负责AI私有化产品的容量规划、自动化部署、容灾演练，以及故障处理所需工具和系统的开发； 3、推进AI私有化产品的持续集成与交付，实现高效且自动化的运维优化，增强服务的稳定性并提升研发效率。

更新于 2025-03-13上海

SRE工程师（容灾应急响应方向）-国际化内容安全平台

社招5年以上A185461A

1、持续支撑国际化内容安全平台内部视频安全、直播安全等多条业务日常稳定性保障，构建并优化可观测性大盘，积极参与容灾响应和应急，持续提升MTTR和SLA； 2、通过体系化的监控、运维、容量管理、资源成本管理、跨区域容灾建设、巡检、流程规范建设、应急响应、事故管理等方式维护线上服务稳定性，保证服务SLO；同时积极应用数据驱动、自动化运维等方式提升运维效率和稳定性运营能力； 3、面对线上问题有体系化的排查思路，快速定位问题能力，建立事故响应机制。

更新于 2024-09-24上海

SRE工程师（运营规划方向）（北京/上海/深圳）

社招1-3年A182815A

1、深入理解国际化短视频创作和社交等业务场景在生成式AI应用过程中的资源利用和管理； 2、负责设计和落地成本和资源管理解决方案，包括但不限于资源利用率监控和管理、基础设施资源和业务容量规划、需求和预算管理、保障国际化短视频业务的重大活动资源管理； 3、负责搭建完善的资源监控系统，监控和管理GPU/CPU、存储等资源的利用率和成本，提出资源和成本优化建议； 4、负责服务售卖相关商品定价、规划内容； 5、主导并推进上述资源管理解决方案落地到产品工具中，实现自动化的平台化能力。

更新于 2025-01-07上海