logo of aliyun

阿里云阿里云智能-云原生k8s SRE平台研发工程师/专家-杭州

社招全职3年以上云智能集团地点:杭州状态:招聘

任职要求


1. 计算机相关专业,3年及以上后端开发或云原生平台开发经验,具备良好的问题排查能力、系统设计能力、和稳定性风险意识;
2. 熟练掌握JavaGo语言,深入理解 Kubernetes 架构与核心组件(如 API Server、etcd、kubelet、kube-proxy 等),熟悉 HelmIstioPrometheusFluentd 等生态工具;
3. 熟悉常用中间件(如 KafkaRedisMySQL等),具备微服务架构设计与落地经验,熟悉服务治理、熔断限流、配置中心(如 NacosConsul)、API 网关等核心组件;
4. 有编写AI agent经验,尤其是k8s AI诊断及运维经验者优先,有开源项目贡献经验或技术博客输出者优先;
5. 具备强烈的技术好奇心和探索精神,具有良好的团队协作意识和问题解决能力。

工作职责


1. 负责设计、开发和维护基于 Kubernetes 的自动化运维管理平台,提升对资源成本的控制、保障业务稳定性、提高运维效率;
2. 熟练使用Go/Java语言开发平台服务及底层Kubernetes组件能力;
3. 参与平台的高可用、性能优化、安全加固及自动化运维体系建设;
4. 基于AI技术,智能化解决容器层面的问题诊断、成本治理、告警降噪等问题;
5. 编写高质量、可维护的技术文档,推动团队技术沉淀与标准化。
包括英文材料
后端开发+
系统设计+
Java+
Go+
Kubernetes+
Helm+
Istio+
Prometheus+
Fluentd+
中间件+
Kafka+
Redis+
MySQL+
微服务+
服务治理+
Nacos+
Consul+
AI agent+
相关职位

logo of bytedance
社招A81609

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10
logo of bytedance
社招A98480A

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10
logo of bytedance
社招A48924

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10
logo of bytedance
社招2年以上I6492

1、负责公司超大规模基础架构组件自动化运维平台的设计与开发,打造业界领先的运维基础设施平台; 2、推动存储组件的云原生化在公司内部落地,构建云原生运维生态,打造业界领先的存储云原生 PaaS 平台; 3、覆盖基础组件从研发活动到线上运维的全流程工具体系的建设,支撑业务的高速迭代与稳定性建设; 4、引导 SRE 基础运维工作朝着自动化、平台化、智能化方向演进,提升基础架构各组件体系整体运维管理效率。

更新于 2022-05-27