快手高可用架构师(稳定性治理方向)
任职要求
1、10年以上互联网行业相关工作经验,有从0到1的稳定性保障体系的建设和运营经验;
2、对业务或基础设施稳定性保障有丰富的实战经验,如复杂业务场景下系统的高可用性架构实…工作职责
快手研发线体系下稳定性治理团队,致力于面向快手所有产研团队提供业界领先的稳定性保障方案,依托业界前沿技术,为快手业务稳定性保驾护航。 1、参与公司整体稳定性规划及推动建设,面向研发体系进行技术风险发现、治理,推动最佳实践的落地,建立对稳定性风险的系统性抵御能力; 2、负责设计、落地稳定性保障解决方案,包括但不局限于:监控治理、变更管控、服务治理、容灾演练、混沌工程,故障管理等; 3、通过数据分析、故障注入等方式驱动,持续识别稳定性薄弱环节,推动公司级的优化专项,提升整体稳定性; 4、设计并实现稳定性度量和风险识别体系,协助公司各个业务完成反脆弱设计。
1.负责分析IaaS控制面架构设计,识别潜在稳定性风险,提出优化方案; 2.推动控制面架构向高可用、弹性扩展方向演进; 3.设计并实施控制面容灾方案,包括多可用区部署、故障自动切换机制及弹性资源调度策略,确保服务SLA达标; 4.负责将共性问题或风险治理方案、工具推广到全部门。
1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。
1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行; 2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA; 3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复; 4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性; 5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。