阿里云阿里云智能-对象存储运维开发专家-杭州/深圳
任职要求
1、5年以上Linux平台下C/C++开发经验,有大型C/C++项目开发背景者优先; 2、对大规模分布式系统和数据处理有浓厚的兴趣,有存储系统构建经验的优先; 3、有良好的工程质量意识,熟悉单元测试、功能测试和系统测…
工作职责
1、设计和实现高性能、可靠的对象存储系统,满足大规模数据存储和访问需求; 2、负责对象存储系统核心功能的研发,包括数据存储、数据访问、数据迁移复制等; 3、制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑问,保障系统安全可靠。运用产品优化技术和方法,进行性能优化。 4、分析用户需求,优化存储系统架构,提高系统的扩展性、灵活性和可维护性; 5、负责对象存储相关工具和平台的开发,提升对象存储系统的高运维性。
1、负责运维管控系统子模块设计和研发工作,如部署升级系统、根因分析系统、监控告警体系、故障自愈系统等; 2、负责可观测性平台系统的设计和研发工作,提升服务质量和系统的可观测能力; 3、制定交付标准和运维规范,通过自动化的方式,提升系统运行的效率及稳定性。
智算存储技术开发专家将负责开发阿里云智算存储的数据的备份,容灾,同步,分层,治理子系统的研发,日常工作包括但不限于: 1. 设计和开发针对智算数据的大规模分布式数据保护与管理系统,包括但不限于数据重删,压缩,存储,复制,归档,分析功能,同时对系统的监控和运维能力负责,保证系统安全性和可靠性; 2. 测试,调优和运维大规模公共云服务和分布式存储系统; 3. 保持前瞻性, 随着业务复杂性, 负载增加, 运行管理复杂性的增加, 持续的推动系统设计的重构。
1. 负责文件存储可观测性指标体系设计实现,定义监控指标埋点和采集流程标准、定义产品全链路关键性能指标、实现数据和元数据全链路请求追踪方案、构建多层级监控体系,支持实时监控与历史趋势分析。 2. 负责文件存储异常诊断系统,基于可观测性指标体系开发故障根因分析和定位能力,基于 AI Agent 构建故障分析和故障处理方案智能推荐。 3. 与客户支持团队对接,提供可观测工具,辅助 SRE 团队快速响应客户问题。
阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。 负责平台核心功能编码开发,工作领域范围: 1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。 2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。 3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。