logo of aliyun

阿里云阿里云智能-SRE工程师-上海

社招全职5年以上云智能集团地点:上海状态:招聘

任职要求


1. 扎实的运维功底和编程能力,精通Linux系统与Shell,熟练掌握至少一门自动化脚本/工具开发语言(如 Go, Python);
2. 深入理解云原生技术栈,具备生产环境Kubernetes(K8s)集群的运维管理经验,并熟悉阿里云等主流公有云产品;
3. 熟悉主流监控体系(如Prometheus, Grafana),并具备大数据组件(如Flink, Kafka)或数据库(如MySQL, Redis)的运维经验;
4. 优秀…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责AI交易平台业务的云原生基础设施建设与运维,保障Kubernetes(K8s)平台及容器化应用的高可用、高性能;
2. 负责基础设施全生命周期管理,包括但不限于阿里云资源、Flink实时计算集群,以及AI应用所需的MCP服务、Runtime调度、模型服务等组件的部署、监控、优化与故障排查;
3. 参与SRE体系的架构设计与技术演进,通过IaC(基础设施即代码)、CI/CD等理念,主导或参与自动化运维平台/工具的开发,提升研发与交付效率;
4. 关注云原生及AI基础设施领域的技术发展趋势,并将其应用于稳定性保障、成本优化和效率提升的实践中。
包括英文材料
Linux+
Bash+
脚本+
Go+
Python+
Kubernetes+
Prometheus+
Grafana+
大数据+
还有更多 •••
相关职位

logo of bytedance
社招1年以上A159796

AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。 1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节; 2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。

更新于 2024-01-03上海
logo of bytedance
社招A194327C

1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务; 2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发; 3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。

更新于 2025-03-13上海
logo of bytedance
社招5年以上A185461A

1、持续支撑国际化内容安全平台内部视频安全、直播安全等多条业务日常稳定性保障,构建并优化可观测性大盘,积极参与容灾响应和应急,持续提升MTTR和SLA; 2、通过体系化的监控、运维、容量管理、资源成本管理、跨区域容灾建设、巡检、流程规范建设、应急响应、事故管理等方式维护线上服务稳定性,保证服务SLO;同时积极应用数据驱动、自动化运维等方式提升运维效率和稳定性运营能力; 3、面对线上问题有体系化的排查思路,快速定位问题能力,建立事故响应机制。

更新于 2024-09-24上海
logo of bytedance
社招1-3年A182815A

1、深入理解国际化短视频创作和社交等业务场景在生成式AI应用过程中的资源利用和管理; 2、负责设计和落地成本和资源管理解决方案,包括但不限于资源利用率监控和管理、基础设施资源和业务容量规划、需求和预算管理、保障国际化短视频业务的重大活动资源管理; 3、负责搭建完善的资源监控系统,监控和管理GPU/CPU、存储等资源的利用率和成本,提出资源和成本优化建议; 4、负责服务售卖相关商品定价、规划内容; 5、主导并推进上述资源管理解决方案落地到产品工具中,实现自动化的平台化能力。

更新于 2025-01-07上海