快手高可用架构师(稳定性治理方向)
社招全职10年以上D7190地点:北京状态:招聘
任职要求
1、10年以上互联网行业相关工作经验,有从0到1的稳定性保障体系的建设和运营经验; 2、对业务或基础设施稳定性保障有丰富的实战经验,如复杂业务场景下系统的高可用性架构实现等; 3、对同城多活/异地多活技术、混沌工程有相关能力建设经验者优先; 4、精通 Go/Java/Python 等至少一种语言,计算机基础扎实,对并发编有较深入的理解。
工作职责
快手研发线体系下稳定性治理团队,致力于面向快手所有产研团队提供业界领先的稳定性保障方案,依托业界前沿技术,为快手业务稳定性保驾护航。 1、参与公司整体稳定性规划及推动建设,面向研发体系进行技术风险发现、治理,推动最佳实践的落地,建立对稳定性风险的系统性抵御能力; 2、负责设计、落地稳定性保障解决方案,包括但不局限于:监控治理、变更管控、服务治理、容灾演练、混沌工程,故障管理等; 3、通过数据分析、故障注入等方式驱动,持续识别稳定性薄弱环节,推动公司级的优化专项,提升整体稳定性; 4、设计并实现稳定性度量和风险识别体系,协助公司各个业务完成反脆弱设计。
包括英文材料
高可用+
https://redis.io/blog/high-availability-architecture/
A high available architecture is when there are a number of different components, modules, or services that work together to maintain optimal performance, irrespective of peak-time loads.
https://www.ibm.com/think/topics/high-availability
High availability (HA) is a term that refers to a system’s ability to be accessible and reliable close to 100% of the time.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
相关职位
社招3年以上CSIG技术
1.负责分析IaaS控制面架构设计,识别潜在稳定性风险,提出优化方案; 2.推动控制面架构向高可用、弹性扩展方向演进; 3.设计并实施控制面容灾方案,包括多可用区部署、故障自动切换机制及弹性资源调度策略,确保服务SLA达标; 4.负责将共性问题或风险治理方案、工具推广到全部门。
更新于 2025-08-29
社招5年以上A223866A
1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行; 2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA; 3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复; 4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性; 5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。
更新于 2025-03-11
社招5年以上A65306
1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行; 2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA; 3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复; 4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性; 5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。
更新于 2025-03-11