字节跳动稳定性测试开发专家(安全方向)-飞书
任职要求
1、有稳定性保障/性能测试/运维经验优先;熟悉软件开发和系统架构,掌握Java/Go/Python等任意一门语言,具有开源项目开发经验者优先; 2、较强的业务理解能力,能主动挖掘业务风险,制定压测场景或演练场景;熟悉系统高可用和稳定性方法策略,比如同城容灾、异地双活、异地多活等,有…
工作职责
1、负责产品稳定性保障,包括但不限于性能测试、全链路压测、故障演练; 2、负责重大活动或客户保障,保障瞬时峰值下用户体验顺滑,同时确保成本可控; 3、产出主要产品SLO。
1、负责飞书SASE网络的架构设计与核心模块的实现,建设通用、可靠、安全的身份管理和访问控制能力; 2、主导面向飞书内部、飞书客户和飞书合作伙伴的,安全架构顶层设计与领域建模; 3、负责推进服务的可扩展性、稳定性建设,优化系统的性能、成本和质量; 4、带领团队进行开发和测试,并在项目中承担管理职责,协调各部门合作。
1、负责飞书SASE网络的架构设计与核心模块的实现,建设通用、可靠、安全的身份管理和访问控制能力; 2、主导面向飞书内部、飞书客户和飞书合作伙伴的,安全架构顶层设计与领域建模; 3、负责推进服务的可扩展性、稳定性建设,优化系统的性能、成本和质量; 4、带领团队进行开发和测试,并在项目中承担管理职责,协调各部门合作。
1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。