阿里云阿里云智能-存储可观测系统技术专家-AI领域-杭州/上海
任职要求
1. 熟悉软件开发和系统架构,熟练掌握至少一门编程语言,C++、java、python、go。 2. 五年以上云计算、存储可观测系统相关的工作经验。熟悉云存储文件存储(NAS)、对象存储(OSS)等产品的核心架构,了解分布式存储系统的设计比如容灾机制、性能调优方法,能根据存储产品特性设计针对性可观测指标。 3. 有大规模分布式系统监控架构设计经验,包括日志…
工作职责
1. 负责文件存储可观测性指标体系设计实现,定义监控指标埋点和采集流程标准、定义产品全链路关键性能指标、实现数据和元数据全链路请求追踪方案、构建多层级监控体系,支持实时监控与历史趋势分析。 2. 负责文件存储异常诊断系统,基于可观测性指标体系开发故障根因分析和定位能力,基于 AI Agent 构建故障分析和故障处理方案智能推荐。 3. 与客户支持团队对接,提供可观测工具,辅助 SRE 团队快速响应客户问题。
1. 负责文件系统核心 IO 栈的研发,参与数据路径和元数据路径的技术方案设计和研发,以及规模、性能、成本优化; 2. 负责分布式文件系统的稳定性和质量,包括但不限于系统的模块可观测性、FaultTolerance、确保数据正确性和系统稳定性; 3. 参与各种复杂业务场景的分布式文件系统的设计与研发,实现和完善系统高可用、高可靠、高性能设计。
1、深入理解客户的业务场景与技术架构,与客户的架构、开发及运维团队紧密协同,全面评估其现有云上应用架构与产品使用现状,围绕稳定性、可观测性与成本效能,设计并推动落地高可用、高韧性、高易用的云上优化方案。覆盖领域包括但不限于:云原生监控体系建设、风险主动发现机制、混沌工程与容灾演练、业务快速恢复与降级策略、微服务架构演进、FinOps成本治理及高可用架构重构等。 2、联动阿里云内部产品、研发、解决方案及技术服务团队,以客户架构视角驱动问题闭环、重大活动护航、风险治理与架构治理,沉淀可复用的最佳实践、方法论及工具产品,主动识别客户痛点并开展高阶专项服务。 3、持续追踪客户关键稳定性问题,推动根因分析与长效治理机制建设,并反哺阿里云产品与服务体系的持续优化与能力升级。 4、主导或深度参与客户云上架构改造项目的落地实施,通过架构调优、资源治理与技术选型,持续提升系统性能、业务连续性与资源使用效率,实现“稳、快、省”的云上运营目标。
1. 负责面向高持久性、高可用、高性能的云上块存储服务 EBS 的先进支撑底座系统的设计与开发,支撑千万级云盘实例、日均百万亿级别 I/O 请求的分布式存储系统,持续增强其可观测性、可诊断性与可运维性; 2. 构建面向高性能分布式存储的智能可观测体系,在传统监控与诊断基础上融合 AI 异常检测与诊断能力,实现故障的早期预警与精准定界; 3. 建设故障快速恢复与预防体系,通过平台工程策略与 AI 智能决策,实现故障的分钟级恢复乃至主动预防,持续降低系统 MTTR; 4. 设计覆盖全链路的稳定性技术体系,制定面向高持久性、高可用、高性能复杂场景的稳定性保障策略与标准; 5. 长期追踪工业界与学术界前沿技术(如面向时序数据的基础大模型、先进混沌工程实践等),主导技术预研与规模化落地,驱动团队技术持续演进。
负责阿里集团、阿里云可观测数据处理基础设施建设,打造日增百PB级数据的实时数据分析平台。 通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对AI应用场景进行特定优化,提供智能、自动化数据分析服务。 加入该岗位,您将有机会在国内超大规模的实时日志平台上,构建各种面向各类AI应用场景的数据存储和处理平台,打造新一代的AI基础设施。 1. 参与阿里云战略级产品SLS研发,参与面向AI应用场景的数据采集、处理、查询分析等功能开发与设计; 2. 数据索引和查询分析引擎优化,通过数据编码、压缩、向量索引、倒排索引、SQL执行优化、CodeGen等各类技术,实现百~千亿数据实时查询秒级延时,提供极致查询体验; 3. 分布式系统精细化调度,提升在线系统执行效率和资源利用率; 4. Linux底层系统优化,包括网络、内存、CPU等性能优化。