字节跳动蓝军技术专家(稳定性方向)
任职要求
1、4年及以上大型互联网业务研发/测试/运维实战经验;
2、主导或深度参与过稳定性架构治理、高可用保障、红蓝攻防等稳定性领域的建设工作,至少在一个领域有深入的理解;…工作职责
1、负责互娱研发质量线蓝军体系建设,打造业务蓝军,主导平台工具化等能力矩阵建设; 2、通过业务及架构视角识别稳定性薄弱点,挖掘并抽象风险场景,推进解决方案的落地及演练验证; 3、负责大规模的红蓝攻防演练,组织红蓝军进行常态化演练,并通过技术手段,不断提升演练效率和效果; 4、构建完善的数据度量评估体系,通过数据驱动,持续推进蓝军攻击能力的丰富及系统稳定性的优化。
1、负责互娱研发稳定性治理,识别业务及架构风险,构建防控体系,支撑业务达成目标; 2、承担稳定性蓝军工作,构建风险挖掘、演练、评估体系,推动和参与业务攻防演练及应急能力建设; 3、主导相关工具平台的产品化设计与落地,通过技术与数据驱动稳定性水位的持续提升; 4、负责AIOps方案设计与落地,利用AI技术提升链路依赖、容量、监控等方向治理的效果和效率。
1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。
1、产品&竞品策略研究:以海外市场特征、行业数据、用户研究、需求场景洞察、社会宏观趋势洞察为基础,与技术规划紧密协作,提出适用于海外不同阶段的产品策略建议,并参与产品全生命周期的各类本品、竞品研究及策略验证; 2、产品组合策略研究:基于区域、总部以及产品策略模拟蓝军视角,协同产品线输出高质量的路标组合策略研究及建议,提升路标层面的稳定性及赢的确定性; 3、中长期策略规划:支撑产品线制定清晰的人群、定位、使命等中长期策略,完善三维坐标,并针对重要策略专题交付高质量研究及建议,提升产品确定性。