阿里云阿里云智能-存储可观测系统技术专家-AI领域-杭州/上海
任职要求
1. 熟悉软件开发和系统架构,熟练掌握至少一门编程语言,C++、java、python、go。 2. 五年以上云计算、存储可观测系统相关的工作经验。熟悉云存储文件存储(NAS)、对象存储(OSS)等产品的核心架构,了解分布式存储系统的设计比如容灾机制、性能调优方法,能根据存储产品特性设计针对性可观测指标。 3. 有大规模分布式系统监控架构设计经验,包括日志…
工作职责
1. 负责文件存储可观测性指标体系设计实现,定义监控指标埋点和采集流程标准、定义产品全链路关键性能指标、实现数据和元数据全链路请求追踪方案、构建多层级监控体系,支持实时监控与历史趋势分析。 2. 负责文件存储异常诊断系统,基于可观测性指标体系开发故障根因分析和定位能力,基于 AI Agent 构建故障分析和故障处理方案智能推荐。 3. 与客户支持团队对接,提供可观测工具,辅助 SRE 团队快速响应客户问题。
1. 负责文件系统核心 IO 栈的研发,参与数据路径和元数据路径的技术方案设计和研发,以及规模、性能、成本优化; 2. 负责分布式文件系统的稳定性和质量,包括但不限于系统的模块可观测性、FaultTolerance、确保数据正确性和系统稳定性; 3. 参与各种复杂业务场景的分布式文件系统的设计与研发,实现和完善系统高可用、高可靠、高性能设计。
1、深入理解客户的业务场景与技术架构,与客户的架构、开发及运维团队紧密协同,全面评估其现有云上应用架构与产品使用现状,围绕稳定性、可观测性与成本效能,设计并推动落地高可用、高韧性、高易用的云上优化方案。覆盖领域包括但不限于:云原生监控体系建设、风险主动发现机制、混沌工程与容灾演练、业务快速恢复与降级策略、微服务架构演进、FinOps成本治理及高可用架构重构等。 2、联动阿里云内部产品、研发、解决方案及技术服务团队,以客户架构视角驱动问题闭环、重大活动护航、风险治理与架构治理,沉淀可复用的最佳实践、方法论及工具产品,主动识别客户痛点并开展高阶专项服务。 3、持续追踪客户关键稳定性问题,推动根因分析与长效治理机制建设,并反哺阿里云产品与服务体系的持续优化与能力升级。 4、主导或深度参与客户云上架构改造项目的落地实施,通过架构调优、资源治理与技术选型,持续提升系统性能、业务连续性与资源使用效率,实现“稳、快、省”的云上运营目标。
1、深入理解客户的业务场景与技术架构,与客户的架构、开发及运维团队紧密协同,全面评估其现有云上应用架构与产品使用现状,围绕稳定性、可观测性与成本效能,设计并推动落地高可用、高韧性、高易用的云上优化方案。覆盖领域包括但不限于:云原生监控体系建设、风险主动发现机制、混沌工程与容灾演练、业务快速恢复与降级策略、微服务架构演进、FinOps成本治理及高可用架构重构等。 2、联动阿里云内部产品、研发、解决方案及技术服务团队,以客户架构视角驱动问题闭环、重大活动护航、风险治理与架构治理,沉淀可复用的最佳实践、方法论及工具产品,主动识别客户痛点并开展高阶专项服务。 3、持续追踪客户关键稳定性问题,推动根因分析与长效治理机制建设,并反哺阿里云产品与服务体系的持续优化与能力升级。 4、主导或深度参与客户云上架构改造项目的落地实施,通过架构调优、资源治理与技术选型,持续提升系统性能、业务连续性与资源使用效率,实现“稳、快、省”的云上运营目标。