logo of aliyun

阿里云阿里云智能-块存储运维系统技术专家-AI领域-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1. 5 年以上系统稳定性保障、运维平台架构或分布式存储系统相关工作经验; 
2. 扎实的计算机基础与体系结构知识,熟练掌握 C/C++Golang、Python 等至少一门主流编程语言及相关研发框架与中间件; 
3. 深入理解稳定性核心技术,具备可观测系统建设、智能诊断、快恢体系…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责面向高持久性、高可用、高性能的云上块存储服务 EBS 的先进支撑底座系统的设计与开发,支撑千万级云盘实例、日均百万亿级别 I/O 请求的分布式存储系统,持续增强其可观测性、可诊断性与可运维性;
2. 构建面向高性能分布式存储的智能可观测体系,在传统监控与诊断基础上融合 AI 异常检测与诊断能力,实现故障的早期预警与精准定界;
3. 建设故障快速恢复与预防体系,通过平台工程策略与 AI 智能决策,实现故障的分钟级恢复乃至主动预防,持续降低系统 MTTR;
4. 设计覆盖全链路的稳定性技术体系,制定面向高持久性、高可用、高性能复杂场景的稳定性保障策略与标准;
5. 长期追踪工业界与学术界前沿技术(如面向时序数据的基础大模型、先进混沌工程实践等),主导技术预研与规模化落地,驱动团队技术持续演进。
包括英文材料
C+
C+++
Go+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州
logo of bytedance
社招3年以上A54226

1、负责火山引擎计算和存储产品的售后服务支持,为客户提供高效优质的服务体验; 2、面向火山引擎客户,在计算、存储技术方向提供专业的咨询、精准指导,并深入阐释相关技术问题;同时,有效收集用户反馈信息,进行汇总提炼,为产品的持续优化提供有力支撑与驱动; 3、负责对客户问题作出快速响应,针对复杂问题,即时与技术专家或研发团队展开直接合作,通过紧密协作确保问题得以高效、妥善解决,保障客户业务的正常运转; 4、助力团队进行知识库与技术文档的沉淀工作。

更新于 2025-02-19北京
logo of aliyun
社招5年以上技术类-开发

1、负责块存储运维支撑系统的的设计、开发工作,制定技术演进路线并保持技术持续迭代升级,进而保障超大规模分布式块存储系统的生产稳定性。 2、负责块存储生产运维规则基线的定义和开发,通过交付部署管控、发布变更管控以及智能检测熔断能力,提供稳定安全可靠的基础环境。 3、针对大规模分布式块存储系统,负责构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的监控报警,并进行智能分析及根因定位。 4、负责运维能力的下沉,保障块存储运维支撑系统在线上线下能力的一致性。

更新于 2025-04-15北京|杭州