阿里云阿里云智能-块存储运维系统技术专家-AI领域-杭州
任职要求
1. 5 年以上系统稳定性保障、运维平台架构或分布式存储系统相关工作经验; 2. 扎实的计算机基础与体系结构知识,熟练掌握 C/C++、Golang、Python 等至少一门主流编程语言及相关研发框架与中间件; 3. 深入理解稳定性核心技术,具备可观测系统建设、智能诊断、快恢体系…
工作职责
1. 负责面向高持久性、高可用、高性能的云上块存储服务 EBS 的先进支撑底座系统的设计与开发,支撑千万级云盘实例、日均百万亿级别 I/O 请求的分布式存储系统,持续增强其可观测性、可诊断性与可运维性; 2. 构建面向高性能分布式存储的智能可观测体系,在传统监控与诊断基础上融合 AI 异常检测与诊断能力,实现故障的早期预警与精准定界; 3. 建设故障快速恢复与预防体系,通过平台工程策略与 AI 智能决策,实现故障的分钟级恢复乃至主动预防,持续降低系统 MTTR; 4. 设计覆盖全链路的稳定性技术体系,制定面向高持久性、高可用、高性能复杂场景的稳定性保障策略与标准; 5. 长期追踪工业界与学术界前沿技术(如面向时序数据的基础大模型、先进混沌工程实践等),主导技术预研与规模化落地,驱动团队技术持续演进。
1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。
1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。
1. 负责阿里云块存储管控系统的研发工作,为云服务器ECS、容器服务ACK/ACS、智能计算等核心业务提供低时延、持久化、高可靠的块存储支持,全面支撑AI训练、大规模容器集群等高性能云原生场景。 2. 承担块存储管控系统功能的全周期研发,包括需求分析、架构设计、核心开发、测试验证与发布上线,保障管控链路的高性能与高可用。重点提升系统在高并发请求下的弹性伸缩能力,优化资源调度效率与响应延迟。 3. 主导块存储管控架构的持续演进与重构,面向AI和容器等业务特点,推进系统解耦、故障隔离、容灾自愈等能力建设,降低爆炸半径,提升整体稳定性和可扩展性。通过端到端方案设计与跨模块协同,推动复杂技术问题的根本性解决。 4. 负责系统的稳定性保障工作,参与重大故障应急响应与根因定位,完成疑难问题排查与长效改进机制落地。结合运维数据与业务反馈,持续优化监控体系、诊断能力和自动化运维水平,提升系统可维护性与交付效率。 5. 打造面向未来的智能块存储控制平面,构建支撑大规模资源、具备云原生敏捷性的下一代存储管控架构。