logo of bytedance

字节跳动云原生稳定性专家/架构师-基础技术

社招全职A98480A地点:北京状态:招聘

任职要求


1、担任过以下一个或者多个工作角色:研发、运维、质量、稳定性、技术风险;
2、容器和K8S技术知识扎实,有K8S实践经验,深入理解K8S的架构和设计;
3、具有丰富稳定性工程经验,对以下一个或者几个有深入理解和实践:SLA体系、高可用架构、监控与可观测性、容量治理、DevOps、变更管控、故障应急等;
4、具备较强的团队沟通与协助…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性;
2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性;
3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。
包括英文材料
Kubernetes+
还有更多 •••
相关职位

logo of bytedance
社招A81609

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10杭州
logo of bytedance
社招A48924

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10上海
logo of eleme
社招10年以上技术类-开发

1、负责公司核心系统的架构设计与技术方案制定,主导复杂业务场景下的技术架构演进,推动高可用、高性能、可扩展的技术体系建设; 2、负责横向大项目的推进和落地,如性能优化、体验优化、AI运维提效等,有体系化和前瞻性; 3、深入参与关键系统性能优化工作,结合业务增长趋势,推动架构持续演进,保障系统在高并发、大数据量场景下的稳定运行; 4、推动架构治理体系建设,制定技术架构规范与标准,指导团队进行合理的技术选型与架构设计,且具备跨部分的协同能力; 5、关注行业技术趋势,推动云原生、微服务治理、服务网格、分布式架构等前沿技术在业务场景中的落地实践。

更新于 2025-09-15杭州|上海
logo of aliyun
社招3年以上云智能集团

1、深入理解阿里云AI智算集群的技术原理、架构和使用场景,根据客户需求,设计并实施高性能、可扩展的AI基础设施解决方案,核心聚焦于大模型的训练与推理场景,促进商业化合作达成。 2、具备良好的架构思维,能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑,基于阿里云IaaS和PaaS的全栈AI基础设施,确保从算力、网络、存储的极致优化,持续为客户提供高质量AI基础设施服务。 3、面向国际市场,总结分析AI智算发展趋势/市场竟争格局,主动挖掘行业数据和客户商机,建立可复制的行业解决方案,与产研团队紧密配合,推动产品能力和营收持续增长。 4、具备需求拆解和整合的能力,成为对内外部AI智算技术的传播者,能够将复杂的AI基础设施技术转化为清晰的商业价值,成为客户和内部团队信赖的技术顾问。 5、作为领域专家参与客户Workshop、市场洞察等活动,并在行业峰会、技术沙龙等市场活动中进行阿里云AI智算技术传播和分享。

更新于 2025-11-26北京|杭州