logo of aliyun

阿里云阿里云智能-云存储运维技术专家-杭州

社招全职技术类-开发地点:杭州状态:招聘

任职要求


1. 良好的计算机专业基础,具备linux系统开发经验;
2. 至少能熟练使用 Golang/Python/Java/C++/C 一种语言,在计算机领域具有较完整的知识体系,并能结合到实际工作中,包括但不局限于算法数据结构分布式系统、操作系统、设计模式;
3. 对技术有激情,喜欢钻研,具备独立工作能力和解决问题的能力,善于沟通,乐于合作,勤于总结;
4. 熟悉 PaxosRaft、Gossip 等经典共识协议并有相关开发运维经验的优先;熟悉 Etcd、Redis、Tair、Kafka 等主流分布式中间件并有相关开发运维经验的优化。

工作职责


1. 一致性框架研发,面向计算、存储、大数据等阿里云云产品,提供诸如分布式锁、服务发现、元数据存储等分布式协调解决方案;
2. 面向一致性系统的测试和发布,涉及但不限于自动化测试,自动化部署,发布编排;
3. 运维支撑平台建设,全域范围内的女娲服务实例的运维,管控,调度,体系化建设数据采集以及可视化机制,具备全链路诊断分析能力。
包括英文材料
Linux+
Go+
Python+
Java+
C+++
C+
算法+
数据结构+
分布式系统+
设计模式+
Paxos+
Raft+
Redis+
Kafka+
中间件+
相关职位

logo of aliyun
社招技术类-开发

1、参与文件存储管控平台建设,与产品团队、架构师团队合作进行架构设计,为管控系统朝着易部署、易交付、易运维的方向持续优化; 2、负责建设文件存储管控系统的高可用体系,包括流量均衡、自适应容灾切换、自动降级等,提升系统在典型故障场景下的自运维、自恢复能力,确保生产业务的持续稳定; 3、持续提升文件存储管控系统的用户体验,深入理解文件存储的业务,解决客户使用文件存储产品中的痛点和难点,改进不合理的设计,提升产品易用性。

更新于 2025-04-15
logo of aliyun
社招5年以上云智能集团

1. 设计,开发和调优混合云存储产品的数据平面,包括但不限于Guest OS/Hypervisor/存储网关/阿里云等层面上的存储,备份,数据服务,容灾恢复等核心功能的数据平面能力; 2. 推动技术与业务的发展,在专有云与公有云中设计和开发不同形态的混合云服务; 3. 产品负责人岗位需跟踪协调合作伙伴产品(例如网关)功能和进度制定阿里云相应的功能适配;制定自主研发混合云存储产品的数据平面技术架构选择、开源和自研模块集成策略。

更新于 2025-07-31
logo of aliyun
社招5年以上云智能集团

部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供领先的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。 云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。 云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于: 1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系 2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛 3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单 4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进 5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障 岗位职责: 1. 管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。 2. 负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。 3. 主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。 4. 结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。 5. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验

更新于 2025-07-10
logo of aliyun
社招5年以上技术类-开发

1、负责运维管控系统子模块设计和研发工作,如部署升级系统、根因分析系统、监控告警体系、故障自愈系统等。 2、负责可观测性平台系统的设计和研发工作,提升服务质量和系统的可观测能力。 3、制定交付标准和运维规范,通过自动化的方式,提升系统运行的效率及稳定性。

更新于 2025-04-15