阿里云阿里云智能-存储可观测系统技术专家-AI领域-杭州/上海

社招全职5年以上云智能集团2025-11-23地点：杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 熟悉软件开发和系统架构，熟练掌握至少一门编程语言，C++、java、python、go。
2. 五年以上云计算、存储可观测系统相关的工作经验。熟悉云存储文件存储（NAS）、对象存储（OSS）等产品的核心架构，了解分布式存储系统的设计比如容灾机制、性能调优方法，能根据存储产品特性设计针对性可观测指标。
3. 有大规模分布式系统监控架构设计经验，包括日志…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责文件存储可观测性指标体系设计实现，定义监控指标埋点和采集流程标准、定义产品全链路关键性能指标、实现数据和元数据全链路请求追踪方案、构建多层级监控体系，支持实时监控与历史趋势分析。
2. 负责文件存储异常诊断系统，基于可观测性指标体系开发故障根因分析和定位能力，基于 AI Agent 构建故障分析和故障处理方案智能推荐。
3. 与客户支持团队对接，提供可观测工具，辅助 SRE 团队快速响应客户问题。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Java+

Python+

Go+

性能调优+

分布式系统+

还有更多 •••

登录查看完整学习资料

相关职位

蚂蚁集团-可观测存储引擎开发-杭州【数据平台】

社招3年以上技术-开发

1. 设计并开发可观测性平台的核心模块（Metric、日志、分布式追踪等）； 2. 优化现有监控系统的性能、可靠性和扩展性，支撑千万级实例的实时数据处理； 3. 实时计算能力建设：构建指标聚合、降采样、异常检测等实时计算管道，支持秒级延迟的监控告警与业务决策； 4. 大规模运维实践：设计千万级实例的指标采集方案，解决Agent资源占用、网络传输、服务端写入性能等生产级问题； 5. 探索前沿技术（如eBPF、AIOps等），推动智能化根因分析、异常预测等能力落地。

更新于 2025-12-11杭州

存储电性失效分析专家-DRAM Electrical Failure Analysis Expert(J18488)

社招10年以上研发技术类

1.主导DRAM电性失效分析及电路原理拆解，提供技术性指导，推动失效根因定位与闭环； 2.掌握DRAM测试pattern sequence原理及模拟验证方法，并能对团队进行技术性指导。

更新于 2026-06-16上海|合肥

存储array测试与失效分析工程师-Storage Array Test and Failure Analysis Engineer(J17245)

社招研发技术类

1.负责 DRAM失效分析，并提供针对性的测试方案； 2.熟悉ADVANTEST机台 Memory测试，制定和优化测试方案并分析测试数据； 3.从质量和成本角度,优化测试策略。

更新于 2026-06-12合肥

存储SRE工程师

社招3-5年J0012

1、负责快手超大规模分布式存储，包括文件存储、对象存储、块存储等分布式存储系统的日常维护，保障服务高可用和高可靠性； 2、管理大规模存储引擎资源，从资源的申请、交付、使用、治理的全流程运营，保障资源运行效率以及控制容量风险； 3、建设大规模存储系统运维平台和工具，保障数万规模存储系统操作效率以及操作质量； 4、负责服务的监控报警、巡检管理，为线上的稳定性负责。

更新于 2026-05-19深圳|北京|杭州