阿里云阿里云智能-存储运维系统研发专家-北京/杭州
任职要求
1.具备扎实的软件研发能力,能使用 C++ 和 Python 语言编写多线程分布式系统,同时具备页面研发技能者优先; 2.有分布式系统线上问题调查的经验,熟悉 Linux 操作系统命令,具备程序性能优化和数据采集展示经验者优先; 3.熟悉数据分析技术,具备分析型数据库使用经验,对阿里云产品有使用经验者优先; 4.具有良好的跨团队协作能力和经验。
工作职责
1.构建盘古分布式文件系统的标准化输出能力,提高系统的自动化部署、运维能力; 2.梳理盘古分布式文件系统管控系统的依赖,降低对外部系统的依赖,建立运维管控系统回归测试能力; 3.重构盘古管控系统的数据层和逻辑层,确保系统在迭代更新的过程中始终保证兼容性和服务稳定; 4.对接阿里云安全体系和基础管控系统,确保系统能在多用户环境下安全稳定运行。
1、负责块存储运维支撑系统的的设计、开发工作,制定技术演进路线并保持技术持续迭代升级,进而保障超大规模分布式块存储系统的生产稳定性。 2、负责块存储生产运维规则基线的定义和开发,通过交付部署管控、发布变更管控以及智能检测熔断能力,提供稳定安全可靠的基础环境。 3、针对大规模分布式块存储系统,负责构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的监控报警,并进行智能分析及根因定位。 4、负责运维能力的下沉,保障块存储运维支撑系统在线上线下能力的一致性。
主要负责赤骥运维管控核心系统的的设计、开发工作,制定1-2年技术演进路线并实施以保持技术先进性,进而保障超大规模分布式存储系统的稳定性。包括但不限于: 1、构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的响应报警,并进行智能分析及根因定位。 2、基于跨区域容灾的运维资产管理能力,以及智能检测熔断能力,进行超大规模分布式系统的变更管控,提供稳定安全的发布变更系统。 3、深入理解所负责系统的结构和隐藏问题,能够制定具体的方案改进,保持系统的稳定性和可维护性。
1. 设计,开发和调优混合云存储产品的数据平面,包括但不限于Guest OS/Hypervisor/存储网关/阿里云等层面上的存储,备份,数据服务,容灾恢复等核心功能的数据平面能力; 2. 推动技术与业务的发展,在专有云与公有云中设计和开发不同形态的混合云服务; 3. 产品负责人岗位需跟踪协调合作伙伴产品(例如网关)功能和进度制定阿里云相应的功能适配;制定自主研发混合云存储产品的数据平面技术架构选择、开源和自研模块集成策略。
1. 针对ECS异常调度“运维决策大脑”,设计多维的异常调度可验证体系,通过融合存储、心跳、网络状态等多路信号,从根本上解决因单一信号误判导致的业务中断风险,确保自动化决策的精准性; 2. 针对ECS海量线上数据和全链路性能问题,设计和开发创新的测试解决方案与平台,建立精准、高效的性能和稳定性度量体系; 3. 面向失败的可验证性设计,验证系统的韧性架构,尤其针对规模性故障(机房、核心系统依赖),推动核心组件的降级、熔断、故障恢复能力,通过故障注入等方式验证系统的鲁棒性; 4. 作为产品线研发安全生产的构建者,负责在多产品/复杂系统层面构建并落地完善的研发安全生产规范和流程,保障系统的可容灾、可观测、可处置、可运维、可快速恢复; 5. 主导跨产品、大型复杂系统的质量保障工作,组织和推动高水准的稳定性演练(如容灾、红蓝对抗),培养团队的研发安全生产意识和专业能力; 6. 对AIOps/SRE及质量保障领域的技术发展趋势有前瞻性判断,负责测试技术预研、技术难点攻关,推动技术变革与创新,为产品线带来显著收益。