logo of didi

滴滴业务高可用专家/架构师-平台(JR2026010900U)

社招全职3年以上技术状态:招聘

任职要求


我们期待您具备:
1、3年以上工作经验,本科及以上学历,具备扎实的计算机专业基础。熟悉Linux操作系统、网络协议、存储、容器技术等。
2、具备良好的问题排查和技术攻关能力,有强烈的进取心、自驱动力、求知欲、工作责任感及团队合作精神,有良好的沟通能力。
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责海外金融Fintech业务的连续性保障能力建设,设计并实施面向应用场景的故障发现、故障自愈应急、容灾演练等技术⻛险领域的能力,提供业务无感的自愈保障。
2、围绕Fintech业务的重大项目和活动保障,设计实施高可用的保障方案,识别并解决相关技术风险问题。
3、负责演进Fintech基础架构,保障业务高速发展的同时,构建领先的容灾多活、流量调度、弹性伸缩、故障快速恢复等全局技术架构,提升业务可用率。
4、识别业务发展过程中的效能和成本问题,进行工程效率提升,改进工程交付效率与质量;
5、负责自动化运维平台、技术⻛险平台等的架构设计和系统实现,体系化识别和管控业务风险,持续提升运维效率。
包括英文材料
相关职位

logo of didi
社招5年以上技术

1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。

更新于 2026-01-13
logo of aliyun
社招8年以上云智能集团

1、技术方案设计 - 负责 ABM 运维平台的架构设计,具有前瞻性视野,满足业务快速发展和各种输出环境适配需求。 2、技术实现 - 负责ABM核心模块的开发和优化,满足大规模和高性能的需求。 - 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。 - 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、体验改善、性能和成本优化等。 3、稳定性和性能优化 - 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 - 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 - 跟踪和了解新的产品技术和趋势,根据业务需要提供技术支持和建议。 5、技术规划 - 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2026-01-12杭州
logo of eleme
社招5年以上技术类-开发

1. 负责牵头技术风险防控领域平台应用的架构设计和落地,有体系化和前瞻性; 2. 具备架构升级、性能优化、全链路压测、服务治理、变更防控、容灾等稳定性方面的经验; 3. 具备技术故障的应急处置能力,能快速&智能识别、定位、恢复问题;

更新于 2025-07-29杭州|上海
logo of bytedance
社招A81609

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10杭州