字节跳动基础架构稳定性专家/架构师
社招全职3年以上G1706地点:杭州状态:招聘
任职要求
1、3年以上互联网行业相关工作经验,对以下一个或者几个领域有深入的理解:研发、监控、稳定性、技术风险; 2、对业务或基础设施系统稳定性保障有丰富的实战经验,如复杂业务场景下的流程优化和过程改进、系统的高可用性架构实现、组织的稳定性意识提升等; 3、有从0到1的稳定性保障体系的建设和运营经验(流程化、规范化、标准化、工具化、产品化、持续改进); 4、对问题有清晰的分析逻辑和全局思维,能提出具有创造性的解决思路和方案,并有良好的沟通能力和结构化表达能力,以及团队合作意识; 5、有较强的抗压能力,能够并行处理多项工作; 6、有良好的沟通能力、能通过影响他人拿到结果、乐观,快速学习能力强。 优先条件: 1、有ITIL认证,有ITIL体系实践经验,有体系化思维能力; 2、有PMP认证,有项目管理经验,有系统性解决问题能力; 3、 熟练掌握编程语言,包括但不仅限于:Java、C、C++、PHP、 Python、Golang等; 4、英语口语流利,能熟练的通过英语进行沟通、表达(GOC全球化业务拓展急需全球化人才); 5、有6-SIGMA、CMMI认证。
工作职责
1、学习并了解字节相关产品业务,如抖音,飞书,西瓜视频等各类业务; 2、学习并了解应用、系统、基础设施等各层技术的调用关系; 3、负责设计、落地各类业务以及基础设施系统的稳定性保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、重大活动管理以及稳定性文化建设; 4、深入支撑字节系统的所有技术类问题,包括应急响应、应急调度、协同处理和整体业务的保障,并持续优化该体系的质量、效率、成本,提升整体服务品质; 5、主导并推进标准稳定性保障解决方案落地到产品工具中,通过产品工具降低成本,提升服务效率,实现高效自动化且可扩展的技术服务运行模式; 6、基于对字节内、行业内业务形态的了解,对字节内业务团队提供稳定性保障服务支撑,并能够基于产品工具,结合业务痛点输出稳定性保障解决方案。
包括英文材料
高可用+
https://redis.io/blog/high-availability-architecture/
A high available architecture is when there are a number of different components, modules, or services that work together to maintain optimal performance, irrespective of peak-time loads.
https://www.ibm.com/think/topics/high-availability
High availability (HA) is a term that refers to a system’s ability to be accessible and reliable close to 100% of the time.
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
C+
https://www.freecodecamp.org/chinese/news/the-c-beginners-handbook/
本手册遵循二八定律。你将在 20% 的时间内学习 80% 的 C 编程语言。
https://www.youtube.com/watch?v=87SH2Cn0s9A
https://www.youtube.com/watch?v=KJgsSFOSQv0
This course will give you a full introduction into all of the core concepts in the C programming language.
https://www.youtube.com/watch?v=PaPN51Mm5qQ
In this complete C programming course, Dr. Charles Severance (aka Dr. Chuck) will help you understand computer architecture and low-level programming with the help of the classic C Programming language book written by Brian Kernighan and Dennis Ritchie.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
PHP+
https://www.learn-php.org/
PHP is a server scripting language, and a powerful tool for making dynamic and interactive Web pages.
https://www.youtube.com/watch?v=l4_Vn-sTBL8
This PHP full course for beginners will teach you everything from scratch—from PHP basics to advanced concepts!
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
英语口语+
https://www.youtube.com/@SpeakEnglishWithVanessa
Speak English naturally, confidently, and fluently with Vanessa.
相关职位
社招A81609
1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。
更新于 2025-06-10
社招A98480A
1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。
更新于 2025-06-10
社招A48924
1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。
更新于 2025-06-10