阿里云阿里云智能-对象存储运维开发专家-杭州/深圳
任职要求
1、5年以上Linux平台下C/C++开发经验,有大型C/C++项目开发背景者优先; 2、对大规模分布式系统和数据处理有浓厚的兴趣,有存储系统构建经验的优先; 3、有良好的工程质量意识,熟悉单元测试、功能测试和系统测试并能严格实施这些测试; 4、熟悉操作系统原理、网络编程、多线程编程和性能优化; 5、具备良好的问题分析和解决能力,能够快速定位和修复系统中的复杂问题; 6、具有良好的团队合作精神和沟通能力,能够和团队成员协同工作。
工作职责
1、设计和实现高性能、可靠的对象存储系统,满足大规模数据存储和访问需求; 2、负责对象存储系统核心功能的研发,包括数据存储、数据访问、数据迁移复制等; 3、制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑问,保障系统安全可靠。运用产品优化技术和方法,进行性能优化。 4、分析用户需求,优化存储系统架构,提高系统的扩展性、灵活性和可维护性; 5、负责对象存储相关工具和平台的开发,提升对象存储系统的高运维性。
阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。 负责平台核心功能编码开发,工作领域范围: 1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。 2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。 3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。

工作职责 1)负责数据服务平台功能模块的方案设计、需求迭代、开发和运维的工作; 2)承接数据服务外部技术对接,客户接入,产品接入等业务需求。有自己的思考,独立完成高可扩展性的高性能的分布式架构设计与开发。
1. 设计、开发和调优存储的数据管理服务,包括但不限于Guest OS/Hypervisor/云存储网关/阿里云等层面上的存储,备份,数据服务,容灾恢复等核心功能; 2. 设计和开发存储系统和相关服务的智能管理,监控,运维平台,提供云原生的管理监控功能,保证存储系统安全性和可靠性。
1.负责腾讯云公有云客户云上售后SRE专家支持工作,为客户提供容灾高可用,业务部署优化,架构优化,成本优化,容量管理,业务连续性治理等方面的专家服务; 2.帮助客户进行应用部署架构的梳理与优化,通过云产品自身提供的高可用能力或者业界主流的容灾方案,为客户提供容灾高可用优化方案的设计与实施; 3.通过混沌工程等演习手段,设计并实施客户应用业务层面的容灾方案与验证; 4.对常见的互联网IT故障,设计应急预案并工具化落地,帮助客户实现容灾自动化逃生能力,达到客户业务对 RTO/RPO 要求; 5.通过产品化,工具化的思路,提升客户在云上SRE管理与治理方面的体验与效率。