滴滴业务高可用专家/架构师-平台(JR2026010900U)
任职要求
我们期待您具备: 1、3年以上工作经验,本科及以上学历,具备扎实的计算机专业基础。熟悉Linux操作系统、网络协议、存储、容器技术等。 2、具备良好的问题排查和技术攻关能力,有强烈的进取心、自驱动力、求知欲、工作责任感及团队合作精神,有良好的沟通能力。 …
工作职责
1、负责海外金融Fintech业务的连续性保障能力建设,设计并实施面向应用场景的故障发现、故障自愈应急、容灾演练等技术⻛险领域的能力,提供业务无感的自愈保障。 2、围绕Fintech业务的重大项目和活动保障,设计实施高可用的保障方案,识别并解决相关技术风险问题。 3、负责演进Fintech基础架构,保障业务高速发展的同时,构建领先的容灾多活、流量调度、弹性伸缩、故障快速恢复等全局技术架构,提升业务可用率。 4、识别业务发展过程中的效能和成本问题,进行工程效率提升,改进工程交付效率与质量; 5、负责自动化运维平台、技术⻛险平台等的架构设计和系统实现,体系化识别和管控业务风险,持续提升运维效率。
1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。
1、技术方案设计 - 负责 ABM 运维平台的架构设计,具有前瞻性视野,满足业务快速发展和各种输出环境适配需求。 2、技术实现 - 负责ABM核心模块的开发和优化,满足大规模和高性能的需求。 - 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。 - 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、体验改善、性能和成本优化等。 3、稳定性和性能优化 - 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 - 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 - 跟踪和了解新的产品技术和趋势,根据业务需要提供技术支持和建议。 5、技术规划 - 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1. 负责牵头技术风险防控领域平台应用的架构设计和落地,有体系化和前瞻性; 2. 具备架构升级、性能优化、全链路压测、服务治理、变更防控、容灾等稳定性方面的经验; 3. 具备技术故障的应急处置能力,能快速&智能识别、定位、恢复问题;