阿里云阿里云智能-块存储运维系统技术专家-AI领域-杭州

社招全职5年以上云智能集团2025-11-20地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 5 年以上系统稳定性保障、运维平台架构或分布式存储系统相关工作经验； 
2. 扎实的计算机基础与体系结构知识，熟练掌握 C/C++、Golang、Python 等至少一门主流编程语言及相关研发框架与中间件； 
3. 深入理解稳定性核心技术，具备可观测系统建设、智能诊断、快恢体系…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责面向高持久性、高可用、高性能的云上块存储服务 EBS 的先进支撑底座系统的设计与开发，支撑千万级云盘实例、日均百万亿级别 I/O 请求的分布式存储系统，持续增强其可观测性、可诊断性与可运维性；
2. 构建面向高性能分布式存储的智能可观测体系，在传统监控与诊断基础上融合 AI 异常检测与诊断能力，实现故障的早期预警与精准定界；
3. 建设故障快速恢复与预防体系，通过平台工程策略与 AI 智能决策，实现故障的分钟级恢复乃至主动预防，持续降低系统 MTTR；
4. 设计覆盖全链路的稳定性技术体系，制定面向高持久性、高可用、高性能复杂场景的稳定性保障策略与标准；
5. 长期追踪工业界与学术界前沿技术（如面向时序数据的基础大模型、先进混沌工程实践等），主导技术预研与规模化落地，驱动团队技术持续演进。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Go+

还有更多 •••

登录查看完整学习资料

相关职位

分布式块存储/存储底座研发专家

社招3-5年J0012

1、承担公司统一化底层分布式存储平台的设计和研发工作，这是类似阿里盘古的纯自研系统； 2、面向整个快手产品和业务、容器云、CDN以及其他技术团队交付和提供EB级别、强一致、超高性能、超低延迟、高可用、高可靠、功能完备、运维友好、业界领先的分布式文件存储、块存储和OSS存储、分布式Log等存储服务； 3、针对量级不断发展的快手图片、短/长视频、压缩加密、算法处理、安全等业务域，设计和研发、优化并解决相关领域内的存储侧痛点，根据业务需求和特点进行存储优化，综合提升存储性能、成本和稳定性； 4、持续推动公司存储技术栈的优化和演进，推动存储新趋势和技术在大数据、AI等新兴业务场景下落地，不断进行架构升级和演进。

更新于 2026-05-19北京|深圳|杭州

阿里云智能-块存储软硬结合研发专家-AI领域-北京/杭州

社招5年以上云智能集团

1. 围绕高性能、低延迟的分布式存储系统，负责新机型及新型硬件技术选型与系统架构的设计适配，评估其对性能、可靠性、成本和运维的影响，输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优，结合自研分布式存储软件栈与底层硬件特性，在 CPU 性能热点调优、异构计算加速、端网一体等层面进行联合优化，取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系，针对不同CPU、存储介质、网络架构，开展大规模自动化测试与长期压力验证，确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证，制定硬件准入规范、监控指标与故障应急机制，协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术，开展预研验证与原型测试，为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州

阿里云智能-块存储软硬结合技术专家-AI领域-北京/杭州

社招5年以上云智能集团

更新于 2025-11-20北京|杭州

阿里云智能-块存储技术专家-成都/北京/杭州

社招5年以上云智能集团

1. 负责分布式块存储系统的技术方案和架构演进设计，负责关键模块（如：元数据管理、数据分布、一致性协议、IO路径优化等）的技术攻关。 2. 负责存储引擎性能优化和技术创新，解决高吞吐、高并发等大规模业务负载下的技术挑战（如：数百万IOPS、TB/s级吞吐、PB级以上规模的分布式一致性等）。 3. 负责设计开发块存储企业级特性，包括且不限于多租户隔离、数据容灾备份（如：快照/克隆、持续数据保护、跨地域复制等）、大规模数据分发、块存储服务SLO/SLA等。 4. 负责设计开发块存储爆炸半径防控机制和构建关键指标监控体系，实现故障快速发现定位和解决能力。 5. 负责跨团队合作项目，推动块存储在云原生、大数据、AI等新兴业务场景下的机会的探索讨论和技术落地。

更新于 2026-01-08成都|北京|杭州