logo of bytedance

字节跳动基础架构稳定性专家/架构师

社招全职3年以上G1706地点:杭州状态:招聘

任职要求


1、3年以上互联网行业相关工作经验,对以下一个或者几个领域有深入的理解:研发、监控、稳定性、技术风险;
2、对业务或基础设施系统稳定性保障有丰富的实战经验,如复杂业务场景下的流程优化和过程改进、系统的高可用性架构实现、组织的稳定性意识提升等;
3、有从0到1的稳定性保障体系的建设和运营经验(流程化、规范化、标准化、工具化、产品化、持续改进);
4、对问题有清晰的分析逻辑和全局思维,能提出具有创造性的解决思路和方案,并有良好的沟通能力和结构化表达能力,以及团队合作意识;
5、有较强的抗压能力,能够并行处理多项工作;
6、有良好的沟通能力、能通过影响他人拿到结果、乐观,快速学习能力强。
优先条件:
1、有ITIL认证,有ITIL体系实践经验,有体系化思维能力;
2、有PMP认证,有项目管理经验,有系统性解决问题能力;
3、 熟练掌握编程语言,包括但不仅限于:JavaCC++PHPPythonGolang等;
4、英语口语流利,能熟练的通过英语进行沟通、表达(GOC全球化业务拓展急需全球化人才);
5、有6-SIGMA、CMMI认证。

工作职责


1、学习并了解字节相关产品业务,如抖音,飞书,西瓜视频等各类业务;
2、学习并了解应用、系统、基础设施等各层技术的调用关系;
3、负责设计、落地各类业务以及基础设施系统的稳定性保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、重大活动管理以及稳定性文化建设;
4、深入支撑字节系统的所有技术类问题,包括应急响应、应急调度、协同处理和整体业务的保障,并持续优化该体系的质量、效率、成本,提升整体服务品质;
5、主导并推进标准稳定性保障解决方案落地到产品工具中,通过产品工具降低成本,提升服务效率,实现高效自动化且可扩展的技术服务运行模式;
6、基于对字节内、行业内业务形态的了解,对字节内业务团队提供稳定性保障服务支撑,并能够基于产品工具,结合业务痛点输出稳定性保障解决方案。
包括英文材料
高可用+
Java+
C+
C+++
PHP+
Python+
Go+
英语口语+
相关职位

logo of bytedance
社招A81609

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10
logo of bytedance
社招A98480A

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10
logo of bytedance
社招A48924

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10
logo of bytedance
社招5年以上A149374

1、指导和带领团队成员,保障抖音直播服务稳定、可靠、高效运行; 2、在稳定性平台建设和稳定性治理方法论上对现状进行深入分析,主导改进和优化; 3、参与业务稳定性架构设计,提供专业的稳定性和架构优化方案; 4、探索LLM和AIOps技术在稳定性方向落地,提升故障自愈率与人效。

更新于 2024-02-06