logo of kuaishou

快手高可用架构师(稳定性治理方向)

社招全职10年以上D7190地点:北京状态:招聘

任职要求


1、10年以上互联网行业相关工作经验,有从0到1的稳定性保障体系的建设和运营经验;
2、对业务或基础设施稳定性保障有丰富的实战经验,如复杂业务场景下系统的高可用性架构实现等;
3、对同城多活/异地多活技术、混沌工程有相关能力建设经验者优先;
4、精通 Go/Java/Python 等至少一种语言,计算机基础扎实,对并发编有较深入的理解。

工作职责


快手研发线体系下稳定性治理团队,致力于面向快手所有产研团队提供业界领先的稳定性保障方案,依托业界前沿技术,为快手业务稳定性保驾护航。
1、参与公司整体稳定性规划及推动建设,面向研发体系进行技术风险发现、治理,推动最佳实践的落地,建立对稳定性风险的系统性抵御能力;
2、负责设计、落地稳定性保障解决方案,包括但不局限于:监控治理、变更管控、服务治理、容灾演练、混沌工程,故障管理等;
3、通过数据分析、故障注入等方式驱动,持续识别稳定性薄弱环节,推动公司级的优化专项,提升整体稳定性;
4、设计并实现稳定性度量和风险识别体系,协助公司各个业务完成反脆弱设计。
包括英文材料
高可用+
Go+
Java+
Python+
相关职位

logo of tencent
社招3年以上CSIG技术

1.负责分析IaaS控制面架构设计,识别潜在稳定性风险,提出优化方案; 2.推动控制面架构向高可用、弹性扩展方向演进; 3.设计并实施控制面容灾方案,包括多可用区部署、故障自动切换机制及弹性资源调度策略,确保服务SLA达标; 4.负责将共性问题或风险治理方案、工具推广到全部门。

更新于 2025-08-29
logo of bytedance
社招5年以上A223866A

1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行; 2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA; 3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复; 4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性; 5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。

更新于 2025-03-11
logo of bytedance
社招5年以上A65306

1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行; 2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA; 3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复; 4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性; 5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。

更新于 2025-03-11
logo of bytedance
社招5年以上A149374

1、指导和带领团队成员,保障抖音直播服务稳定、可靠、高效运行; 2、在稳定性平台建设和稳定性治理方法论上对现状进行深入分析,主导改进和优化; 3、参与业务稳定性架构设计,提供专业的稳定性和架构优化方案; 4、探索LLM和AIOps技术在稳定性方向落地,提升故障自愈率与人效。

更新于 2024-02-06