阿里云阿里云智能-块存储运维系统技术专家-AI领域-杭州
任职要求
1. 5 年以上系统稳定性保障、运维平台架构或分布式存储系统相关工作经验; 2. 扎实的计算机基础与体系结构知识,熟练掌握 C/C++、Golang、Python 等至少一门主流编程语言及相关研发框架与中间件; 3. 深入理解稳定性核心技术,具备可观测系统建设、智能诊断、快恢体系…
工作职责
1. 负责面向高持久性、高可用、高性能的云上块存储服务 EBS 的先进支撑底座系统的设计与开发,支撑千万级云盘实例、日均百万亿级别 I/O 请求的分布式存储系统,持续增强其可观测性、可诊断性与可运维性; 2. 构建面向高性能分布式存储的智能可观测体系,在传统监控与诊断基础上融合 AI 异常检测与诊断能力,实现故障的早期预警与精准定界; 3. 建设故障快速恢复与预防体系,通过平台工程策略与 AI 智能决策,实现故障的分钟级恢复乃至主动预防,持续降低系统 MTTR; 4. 设计覆盖全链路的稳定性技术体系,制定面向高持久性、高可用、高性能复杂场景的稳定性保障策略与标准; 5. 长期追踪工业界与学术界前沿技术(如面向时序数据的基础大模型、先进混沌工程实践等),主导技术预研与规模化落地,驱动团队技术持续演进。
1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。
1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。
1、负责火山引擎计算和存储产品的售后服务支持,为客户提供高效优质的服务体验; 2、面向火山引擎客户,在计算、存储技术方向提供专业的咨询、精准指导,并深入阐释相关技术问题;同时,有效收集用户反馈信息,进行汇总提炼,为产品的持续优化提供有力支撑与驱动; 3、负责对客户问题作出快速响应,针对复杂问题,即时与技术专家或研发团队展开直接合作,通过紧密协作确保问题得以高效、妥善解决,保障客户业务的正常运转; 4、助力团队进行知识库与技术文档的沉淀工作。