阿里云阿里云智能-云网络智能运维研发专家-杭州
任职要求
1. 3年以上IT、互联网、云计算行业运维开发工作经验; 2. 熟悉Java、Golang、python等主流开发语言,有运维自动化系统开发经验者优先; 3. 对云计算业务运维保障管理有丰富的实战经验,如复杂业务场景下的流程优化和过程改进、系统的高可用性架构实现、组织的稳定性意识提升等; 4. 善…
工作职责
1. 参与运维可观测链路建设: 1.1 建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; 1.2 建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; 1.3 建立快速分析、诊断、定位问题能力,并能够协同开发人员分析解决问题。 2. 参与运维可自愈链路建设: 2.1 建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行; 2.2 建立故障注入机制,模拟生产故障场景,验证产品稳定性水位,提前发现系统能力短板。 3. 运维自动化体系建设: 3.1 建设本领域相关的运维体系,如变更标准、重保体系、客情预警等,确保本领域产品运维&稳定性能力提升; 3.2 建设稳定性能力的数据化体系,通过数据驱动方式持续治理稳定性风险; 3.3 建设网络质量自动化探测评估体系,并结合观测链路和自愈链路,自动化隔离网络抖动带来的服务影响。
1. 参与运维可观测链路建设: 1.1 建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; 1.2 建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; 1.3 建立快速分析、诊断、定位问题能力,并能够协同开发人员分析解决问题。 2. 参与运维可自愈链路建设: 2.1 建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行; 2.2 建立故障注入机制,模拟生产故障场景,验证产品稳定性水位,提前发现系统能力短板。 3. 运维自动化体系建设: 3.1 建设本领域相关的运维体系,如变更标准、重保体系、客情预警等,确保本领域产品运维&稳定性能力提升; 3.2 建设稳定性能力的数据化体系,通过数据驱动方式持续治理稳定性风险; 3.3 建设网络质量自动化探测评估体系,并结合观测链路和自愈链路,自动化隔离网络抖动带来的服务影响。
● 网络稳定性管理:梳理和管控阿里云网络的线上稳定性风险,稳定性建设以及性能优化,包括线上问题处理,问题诊断,确保线上系统的安全可靠,提升产品的稳定性和性能,降低网络风险,提升应急响应处置效率。 ● 自动化运维开发:开发和维护路由器/交换机/虚拟网络等网络设备及软件的自动化能力,;落地网络稳定性相关的运维效能提升。 ● 新技术验证与优化:参与新架构、新产品结合测试和运营要求的工作,归纳总结形成有效的SOP,并集成到监管控相关维护系统中。 ● 变更风控与效能提升:变更风控能力建设,持续提升大规模安全高效变更工程化效能,保障变更稳定性和效率,设计和适配开发自动化变更场景。
1、负责块存储运维支撑系统的的设计、开发工作,制定技术演进路线并保持技术持续迭代升级,进而保障超大规模分布式块存储系统的生产稳定性。 2、负责块存储生产运维规则基线的定义和开发,通过交付部署管控、发布变更管控以及智能检测熔断能力,提供稳定安全可靠的基础环境。 3、针对大规模分布式块存储系统,负责构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的监控报警,并进行智能分析及根因定位。 4、负责运维能力的下沉,保障块存储运维支撑系统在线上线下能力的一致性。