滴滴业务高可用专家/架构师-平台(JR2026010900U)
任职要求
我们期待您具备: 1、3年以上工作经验,本科及以上学历,具备扎实的计算机专业基础。熟悉Linux操作系统、网络协议、存储、容器技术等。 2、具备良好的问题排查和技术攻关能力,有强烈的进取心、自驱动力、求知欲、工作责任感及团队合作精神,有良好的沟通能力。 …
工作职责
1、负责海外金融Fintech业务的连续性保障能力建设,设计并实施面向应用场景的故障发现、故障自愈应急、容灾演练等技术⻛险领域的能力,提供业务无感的自愈保障。 2、围绕Fintech业务的重大项目和活动保障,设计实施高可用的保障方案,识别并解决相关技术风险问题。 3、负责演进Fintech基础架构,保障业务高速发展的同时,构建领先的容灾多活、流量调度、弹性伸缩、故障快速恢复等全局技术架构,提升业务可用率。 4、识别业务发展过程中的效能和成本问题,进行工程效率提升,改进工程交付效率与质量; 5、负责自动化运维平台、技术⻛险平台等的架构设计和系统实现,体系化识别和管控业务风险,持续提升运维效率。
1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。
1. 负责牵头技术风险防控领域平台应用的架构设计和落地,有体系化和前瞻性; 2. 具备架构升级、性能优化、全链路压测、服务治理、变更防控、容灾等稳定性方面的经验; 3. 具备技术故障的应急处置能力,能快速&智能识别、定位、恢复问题;
1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。