logo of aliyun

阿里云阿里云智能-容器SRE平台技术专家-杭州/北京/深圳

社招全职5年以上云智能集团地点:北京 | 深圳 | 杭州状态:招聘

任职要求


1、5年以上工作经验;有大规模容器集群研发、运营、稳定性体系建设,研发体系建设经验者优先;
2、熟练掌握Golang语言,熟悉k8s生态和其中关键组件(如apiserver/kcm/Scheduler/etcd等),熟练的Operator开发和运维能力;
3、熟悉Linux系统和常用的shell命令;优秀的表达能力,沟通能力,团队协作能力,自我调节能力;
4、具备较强的风险意识,能准确识别、暴露风险,并推动风险得到有效解决。

工作职责


1、负责阿里云容器服务SRE平台建设工作,负责k8s集群全生命周期的日常运维工作,确保集群稳定性SLA达标;
2、负责建立k8s配套运维平台,提升运维效率,确保集群运维能力的可持续发展;
3、负责K8S集群日常oncall体系和能力建设,端到端定位k8s集群的功能和性能问题,解决线上问题;
4、牵头跨部门复杂项目(如业务容器化项目),推进业务和技术目标落地。
包括英文材料
Go+
Kubernetes+
etcd+
Linux+
Bash+
相关职位

logo of aliyun
社招5年以上云智能集团

1. 负责灵骏专属云各计算集群交付运维工作, 并且专属云参与基础运维平台架构设计和建设; 2. 灵骏专属云运维服务体系建设与优化,达成产品稳定性与SLA目标; 3. 制定专属云交付标准, 沉淀运维规范, 通过工具平台提效日常工作; 4. 跟进内外部合作伙伴项目, 优化专属云项目流程; 5. 需要具备一定的创新突破和个人自驱力,善于发现问题,思考并解决问题; 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-07-31
logo of aliyun
社招3年以上云智能集团

1. 研发需求洞察与设计:负责阿里云人工智能平台PAI的需求讨论、架构设计、软件开发、功能测试及部署上线,确保项目从初始阶段到交付的全流程高质量执行; 2. 系统优化:从功能、性能、可用性、易用性等多个维度,结合产品设计、产品设计和解决方案架构及客户反馈,进行系统各模块的持续分析和优化,降低用户使用门槛,提升用户满意度和忠诚度; 3. 技术支持与维护:负责线上环境的运行监控与问题定位,与SRE和售后团队紧密协作,及时为客户提供技术支持,保障平台的稳定运行; 4. 前沿技术开发:紧贴大模型及AIGC等业界趋势,提炼并反馈有价值的用户需求,持续增强和改进平台的功能,保持技术的先进性和市场竞争力。

更新于 2025-07-07
logo of aliyun
社招5年以上云智能集团

团队整体实行 DevOps,SRE 在其中系统化分析并解决研发流程中的效率与质量问题,打造易用、高效、可复用的效能平台和工具,全面提升分布式块存储产品的持续交付质量和效能。主要职责包括: 1. CI/CD 平台与效能工具链建设: 负责设计、开发和维护高效的 CI/CD 持续集成与交付平台; 2. 搭建核心测试框架与自动化测试工具链;优化测试流程效率,保障测试环境的稳定性与易用性,并有效控制研发成本,从而显著提升研发体验与整体效率; 3. 质量风险分析与效能体系构建: 系统化评审分布式块存储系统的质量风险点,主导构建和完善系统级测试能力;设计并实现覆盖复杂业务场景的用例,持续提升覆盖率和有效性,保障系统质量; 4.云原生测试环境建设: 运用 Kubernetes, Docker, Golang 等云原生技术,构建并维护稳定、高效、易于管理的多架构(如 x86/ARM)容器化环境,为高效测试提供坚实基础; 5. 负责对技术团队和相关模块进行质量水位的评估和考核,并提出改进意见。熟知质量理论和方法,能运用新的AI技术来做质量提效,并在研发中传帮带和推广。持续提升各技术团队的质量意识和测试技术水平。

更新于 2025-07-29
logo of aliyun
社招5年以上云智能集团

1. 负责各计算集群交付运维工作, 并且参与基础运维平台架构设计和建设; 2. 运维服务体系建设与优化,达成产品稳定性与SLA目标; 3. 制定交付标准, 沉淀运维规范, 通过工具平台提效日常工作; 4 跟进内外部合作伙伴项目, 优化项目流程; 5. 需要具备一定的创新突破和个人自驱力,善于发现问题,思考并解决问题。

更新于 2025-09-10