阿里云阿里云智能-运维自动化研发专家-北京/杭州
任职要求
1、熟练的Java面向对象编程,理解常见设计模式,熟悉IO、多线程、分布式、缓存、消息等机制。 2、对JVM原理、GC机制有较好的理解,熟练使用spring boot等主流框架。 3、熟悉云上开发技术栈,熟悉…
工作职责
阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。 负责平台核心功能编码开发,工作领域范围: 1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。 2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。 3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。
1. 设计,开发和调优混合云存储产品的数据平面,包括但不限于Guest OS/Hypervisor/存储网关/阿里云等层面上的存储,备份,数据服务,容灾恢复等核心功能的数据平面能力; 2. 推动技术与业务的发展,在专有云与公有云中设计和开发不同形态的混合云服务; 3. 产品负责人岗位需跟踪协调合作伙伴产品(例如网关)功能和进度制定阿里云相应的功能适配;制定自主研发混合云存储产品的数据平面技术架构选择、开源和自研模块集成策略。
1.构建盘古分布式文件系统的标准化输出能力,提高系统的自动化部署、运维能力; 2.梳理盘古分布式文件系统管控系统的依赖,降低对外部系统的依赖,建立运维管控系统回归测试能力; 3.重构盘古管控系统的数据层和逻辑层,确保系统在迭代更新的过程中始终保证兼容性和服务稳定; 4.对接阿里云安全体系和基础管控系统,确保系统能在多用户环境下安全稳定运行。
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。