logo of aliyun

阿里云阿里云智能-云原生k8s SRE平台研发工程师/专家-杭州

社招全职3年以上云智能集团地点:杭州状态:招聘

任职要求


1. 计算机相关专业,3年及以上后端开发或云原生平台开发经验,具备良好的问题排查能力、系统设计能力、和稳定性风险意识;
2. 熟练掌握JavaGo语言,深入理解 Kubernetes 架构与核心组件(如 API Server、etcd、kubelet、kube-proxy 等),熟悉 HelmIstioPrometheusFluentd 等生态工具;
3. 熟…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责设计、开发和维护基于 Kubernetes 的自动化运维管理平台,提升对资源成本的控制、保障业务稳定性、提高运维效率;
2. 熟练使用Go/Java语言开发平台服务及底层Kubernetes组件能力;
3. 参与平台的高可用、性能优化、安全加固及自动化运维体系建设;
4. 基于AI技术,智能化解决容器层面的问题诊断、成本治理、告警降噪等问题;
5. 编写高质量、可维护的技术文档,推动团队技术沉淀与标准化。
包括英文材料
后端开发+
系统设计+
Java+
Go+
Kubernetes+
Helm+
Istio+
Prometheus+
Fluentd+
还有更多 •••
相关职位

logo of bytedance
社招A81609

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10杭州
logo of bytedance
社招A98480A

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10北京
logo of bytedance
社招A48924

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10上海
logo of bytedance
社招2年以上I6492

1、负责公司超大规模基础架构组件自动化运维平台的设计与开发,打造业界领先的运维基础设施平台; 2、推动存储组件的云原生化在公司内部落地,构建云原生运维生态,打造业界领先的存储云原生 PaaS 平台; 3、覆盖基础组件从研发活动到线上运维的全流程工具体系的建设,支撑业务的高速迭代与稳定性建设; 4、引导 SRE 基础运维工作朝着自动化、平台化、智能化方向演进,提升基础架构各组件体系整体运维管理效率。

更新于 2022-05-27上海