阿里云阿里云智能-运维自动化研发专家-北京/杭州
任职要求
1、熟练的Java面向对象编程,理解常见设计模式,熟悉IO、多线程、分布式、缓存、消息等机制。 2、对JVM原理、GC机制有较好的理解,熟练使用spring boot等主流框架。 3、熟悉云上开发技术栈,熟悉…
工作职责
阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。 负责平台核心功能编码开发,工作领域范围: 1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。 2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。 3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。
1. 底层网络架构与虚拟化研发:负责网络产品的核心架构设计与技术落地,深耕网络底层虚拟化与网络控制系统。要求能够根据业务需求进行技术选型与可行性分析,构建高可用、高扩展的底层底座,确保网络基础设施的稳健运行。 2. 传输协议算法创新与定制化:负责传输协议(TCP/UDP/QUIC等)机制的优化与创新。针对CDN等多元业务场景,设计并实现差异化的拥塞控制与传输算法,达成“千人千面”的网络优化目标,建立业务传输的技术壁垒。 3. 网络AI智能化与自动化运营:推动AI技术在网络域的深度落地。利用机器学习与大数据分析,实现网络故障的自动化诊断、根因分析及传输性能瓶颈定位,将传统被动运维转化为主动预警与智能决策。 4. 全生命周期工程卓越与稳定性保障:负责从需求拆解、核心代码编写到部署运维的全流程。持续进行系统重构与性能调优,通过值班、Bug排查及压测等手段解决线上疑难杂症,确保大规模分布式系统在复杂环境下的稳定性与资源成本最优。 5. 技术规划与业务前瞻视野:理解业务战略,基于业务痛点进行前瞻性技术预研。参与制定中长期技术规划,确保架构设计能够支撑业务的爆发式增长,并能将最新的行业趋势转化为业务竞争力。

1. 底层网络架构与虚拟化研发:负责网络产品的核心架构设计与技术落地,深耕网络底层虚拟化与网络控制系统。要求能够根据业务需求进行技术选型与可行性分析,构建高可用、高扩展的底层底座,确保网络基础设施的稳健运行。 2. 传输协议算法创新与定制化:负责传输协议(TCP/UDP/QUIC等)机制的优化与创新。针对CDN等多元业务场景,设计并实现差异化的拥塞控制与传输算法,达成“千人千面”的网络优化目标,建立业务传输的技术壁垒。 3. 网络AI智能化与自动化运营:推动AI技术在网络域的深度落地。利用机器学习与大数据分析,实现网络故障的自动化诊断、根因分析及传输性能瓶颈定位,将传统被动运维转化为主动预警与智能决策。 4. 全生命周期工程卓越与稳定性保障:负责从需求拆解、核心代码编写到部署运维的全流程。持续进行系统重构与性能调优,通过值班、Bug排查及压测等手段解决线上疑难杂症,确保大规模分布式系统在复杂环境下的稳定性与资源成本最优。 5. 技术规划与业务前瞻视野:理解业务战略,基于业务痛点进行前瞻性技术预研。参与制定中长期技术规划,确保架构设计能够支撑业务的爆发式增长,并能将最新的行业趋势转化为业务竞争力。
1. 设计,开发和调优混合云存储产品的数据平面,包括但不限于Guest OS/Hypervisor/存储网关/阿里云等层面上的存储,备份,数据服务,容灾恢复等核心功能的数据平面能力; 2. 推动技术与业务的发展,在专有云与公有云中设计和开发不同形态的混合云服务; 3. 产品负责人岗位需跟踪协调合作伙伴产品(例如网关)功能和进度制定阿里云相应的功能适配;制定自主研发混合云存储产品的数据平面技术架构选择、开源和自研模块集成策略。