字节跳动蓝军技术专家(稳定性方向)
任职要求
1、4年及以上大型互联网业务研发/测试/运维实战经验;
2、主导或深度参与过稳定性架构治理、高可用保障、红蓝攻防等稳定性领域的建设工作,至少在一个领域有深入的理解;…工作职责
1、负责互娱研发质量线蓝军体系建设,打造业务蓝军,主导平台工具化等能力矩阵建设; 2、通过业务及架构视角识别稳定性薄弱点,挖掘并抽象风险场景,推进解决方案的落地及演练验证; 3、负责大规模的红蓝攻防演练,组织红蓝军进行常态化演练,并通过技术手段,不断提升演练效率和效果; 4、构建完善的数据度量评估体系,通过数据驱动,持续推进蓝军攻击能力的丰富及系统稳定性的优化。
1、负责互娱研发稳定性治理,识别业务及架构风险,构建防控体系,支撑业务达成目标; 2、承担稳定性蓝军工作,构建风险挖掘、演练、评估体系,推动和参与业务攻防演练及应急能力建设; 3、主导相关工具平台的产品化设计与落地,通过技术与数据驱动稳定性水位的持续提升; 4、负责AIOps方案设计与落地,利用AI技术提升链路依赖、容量、监控等方向治理的效果和效率。
1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。
1、分析和识别云产品服务的稳定性与高可用的薄弱点,掘并抽象故障场景,给出解决方案并推进落地与验证; 2、参与系统性梳理核心系统容灾技术方案,推动和参与核心服务的容灾能力建设; 3、组织大规模线上压测、故障演练、预案演习,使系统能有效治理风险和快速故障应急; 4、建设蓝军能力,负责演练验收能力与工具平台建设,数据化驱动系统容灾容错能力的持续优化。