阿里巴巴基础设施与稳定性工程-SRE架构师-杭州
社招全职5年以上技术类-开发地点:杭州状态:招聘
任职要求
基本要求
● 五年以上软件研发经验,具备深厚的编码功底,并拥有主导超大规模分布式系统设计与落地的成功经验。
● 对 SRE 理念有深刻理解和丰富的实践经验,能够从流程、工具、组织等多元维度系统性地提升系统的可靠性。
● 具备架构权衡(Trade-off)能力,能够在成本、效率、稳定性等多个维度间做出清晰、可论证的技术决策,拒绝“过度设计”或“未经充分验证的上线”。
● 具备主人翁精神与技术担当,视系统稳定为最高优先级,能够在高压下保持冷静,并驱动问题根因的彻底解决。
● 拥有强烈的好奇心与持续学习的热情,保持对业…登录查看完整任职要求
微信扫码,1秒登录
工作职责
核心职责 1、稳定性架构设计与治理 ● 主导集团级稳定性保障体系的顶层设计与演进,覆盖从代码变更、配置发布、弹性调度到基础设施的端到端生命周期,建立可度量、可治理的稳定性基线。 ● 构建并推行集团统一的容灾架构标准与治理框架,确保架构方案在设计、实施、验证与日常运营中闭环落地。 2、核心领域技术深耕 ● 容灾与高可用体系: 主导从同城双活、异地多活到单元化架构的演进,构建以混沌工程为代表的常态化、自动化演练验证平台,确保容灾方案的真实有效性。 ● 基础设施稳定性: 深入数据中心与网络基础设施,建立全链路的可观测性与快速恢复能力,能够精准诊断并根治网络拓扑、路由协议、专线质量等引发的全局性问题。 ● 资源与容量运营: 深入理解计算、存储、网络等资源的成本-效率-稳定性三角模型,设计并推动精细化的资源调度、容量规划与成本优化方案,实现极致的资源效率。 3、组织与文化影响力 ● 推动稳定性文化的落地,构建科学的度量指标体系(如MTTR、变更成功率、故障根因分布等),并推动指标体系回归工程本质,避免其成为组织绩效博弈的工具。
包括英文材料
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A