阿里云阿里云智能-块存储研发专家-杭州/北京
任职要求
1. 5年以上系统软件,如操作系统,存储系统,智能网卡,数据库系统,分布式系统等大规模系统软件开发经验; 2. 精通Linux下c++语言,精通至少一门脚本语言,如shell,python等; 3. 严谨的程序开发态度,代码稳定可靠; 4. 对存储系统,文件系统等有深入理解。对存储领域的新技术; 5. 敏锐的洞察力和超强的分析与解决复杂问题的能力; 6. 良好的沟通能力和团队合作精神,有一定的组织协调能力和决策能力; 7. 有在充满变化的环境下克服困难达成目的的能力和决心。
工作职责
1. 负责超大规模分布式块存储数据面系统架构、设计和研发工作,制定技术演进计划,保障技术竞争力和生产稳定性 2. 负责基于硬件基础设施进行软硬一体优化设计和调优,提供业界优秀的块存储性能 3. 针对公共云、非公共云等场景,进行块存储数据链路和分布式存储相关系统研发,确保稳定可靠高性能,和多场景下块存储能力输出的一致性和技术先进性
1、负责块存储运维支撑系统的的设计、开发工作,制定技术演进路线并保持技术持续迭代升级,进而保障超大规模分布式块存储系统的生产稳定性。 2、负责块存储生产运维规则基线的定义和开发,通过交付部署管控、发布变更管控以及智能检测熔断能力,提供稳定安全可靠的基础环境。 3、针对大规模分布式块存储系统,负责构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的监控报警,并进行智能分析及根因定位。 4、负责运维能力的下沉,保障块存储运维支撑系统在线上线下能力的一致性。
团队整体实行 DevOps,SRE 在其中系统化分析并解决研发流程中的效率与质量问题,打造易用、高效、可复用的效能平台和工具,全面提升分布式块存储产品的持续交付质量和效能。主要职责包括: 1. CI/CD 平台与效能工具链建设: 负责设计、开发和维护高效的 CI/CD 持续集成与交付平台; 2. 搭建核心测试框架与自动化测试工具链;优化测试流程效率,保障测试环境的稳定性与易用性,并有效控制研发成本,从而显著提升研发体验与整体效率; 3. 质量风险分析与效能体系构建: 系统化评审分布式块存储系统的质量风险点,主导构建和完善系统级测试能力;设计并实现覆盖复杂业务场景的用例,持续提升覆盖率和有效性,保障系统质量; 4.云原生测试环境建设: 运用 Kubernetes, Docker, Golang 等云原生技术,构建并维护稳定、高效、易于管理的多架构(如 x86/ARM)容器化环境,为高效测试提供坚实基础; 5. 负责对技术团队和相关模块进行质量水位的评估和考核,并提出改进意见。熟知质量理论和方法,能运用新的AI技术来做质量提效,并在研发中传帮带和推广。持续提升各技术团队的质量意识和测试技术水平。
参与公司分布式存储产品研发工作,支撑社交、推荐、搜索、电商、广告等核心业务场景; 负责产品能力建设,针对业务发展需要推进系统演进,提供高可用、高可靠、高性价比的存储产品; 学习和吸纳业界优秀技术和理论成果,积极探索和拓展新的产品能力,持续提升产品的技术和服务水平;