logo of aliyun

阿里云阿里云智能-运维自动化研发专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1、熟练的Java面向对象编程,理解常见设计模式,熟悉IO、多线程、分布式、缓存、消息等机制。
2、对JVM原理、GC机制有较好的理解,熟练使用spring boot等主流框架。
3、熟悉云上开发技术栈,熟悉…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。
负责平台核心功能编码开发,工作领域范围:
1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。
2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。
3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。
包括英文材料
Java+
Go+
编程规范+
网络编程+
多线程+
TCP/IP+
HTTP+
Unix+
Linux+
Perl+
Python+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

1. 底层网络架构与虚拟化研发:负责网络产品的核心架构设计与技术落地,深耕网络底层虚拟化与网络控制系统。要求能够根据业务需求进行技术选型与可行性分析,构建高可用、高扩展的底层底座,确保网络基础设施的稳健运行。 2. 传输协议算法创新与定制化:负责传输协议(TCP/UDP/QUIC等)机制的优化与创新。针对CDN等多元业务场景,设计并实现差异化的拥塞控制与传输算法,达成“千人千面”的网络优化目标,建立业务传输的技术壁垒。 3. 网络AI智能化与自动化运营:推动AI技术在网络域的深度落地。利用机器学习与大数据分析,实现网络故障的自动化诊断、根因分析及传输性能瓶颈定位,将传统被动运维转化为主动预警与智能决策。 4. 全生命周期工程卓越与稳定性保障:负责从需求拆解、核心代码编写到部署运维的全流程。持续进行系统重构与性能调优,通过值班、Bug排查及压测等手段解决线上疑难杂症,确保大规模分布式系统在复杂环境下的稳定性与资源成本最优。 5. 技术规划与业务前瞻视野:理解业务战略,基于业务痛点进行前瞻性技术预研。参与制定中长期技术规划,确保架构设计能够支撑业务的爆发式增长,并能将最新的行业趋势转化为业务竞争力。

更新于 2026-01-30北京|杭州
logo of aligenie
社招3年以上

1. 底层网络架构与虚拟化研发:负责网络产品的核心架构设计与技术落地,深耕网络底层虚拟化与网络控制系统。要求能够根据业务需求进行技术选型与可行性分析,构建高可用、高扩展的底层底座,确保网络基础设施的稳健运行。 2. 传输协议算法创新与定制化:负责传输协议(TCP/UDP/QUIC等)机制的优化与创新。针对CDN等多元业务场景,设计并实现差异化的拥塞控制与传输算法,达成“千人千面”的网络优化目标,建立业务传输的技术壁垒。 3. 网络AI智能化与自动化运营:推动AI技术在网络域的深度落地。利用机器学习与大数据分析,实现网络故障的自动化诊断、根因分析及传输性能瓶颈定位,将传统被动运维转化为主动预警与智能决策。 4. 全生命周期工程卓越与稳定性保障:负责从需求拆解、核心代码编写到部署运维的全流程。持续进行系统重构与性能调优,通过值班、Bug排查及压测等手段解决线上疑难杂症,确保大规模分布式系统在复杂环境下的稳定性与资源成本最优。 5. 技术规划与业务前瞻视野:理解业务战略,基于业务痛点进行前瞻性技术预研。参与制定中长期技术规划,确保架构设计能够支撑业务的爆发式增长,并能将最新的行业趋势转化为业务竞争力。

更新于 2026-04-03北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 设计,开发和调优混合云存储产品的数据平面,包括但不限于Guest OS/Hypervisor/存储网关/阿里云等层面上的存储,备份,数据服务,容灾恢复等核心功能的数据平面能力; 2. 推动技术与业务的发展,在专有云与公有云中设计和开发不同形态的混合云服务; 3. 产品负责人岗位需跟踪协调合作伙伴产品(例如网关)功能和进度制定阿里云相应的功能适配;制定自主研发混合云存储产品的数据平面技术架构选择、开源和自研模块集成策略。

更新于 2025-07-31北京|上海|杭州
logo of aliyun
社招5年以上云智能集团

1.构建盘古分布式文件系统的标准化输出能力,提高系统的自动化部署、运维能力; 2.梳理盘古分布式文件系统管控系统的依赖,降低对外部系统的依赖,建立运维管控系统回归测试能力; 3.重构盘古管控系统的数据层和逻辑层,确保系统在迭代更新的过程中始终保证兼容性和服务稳定; 4.对接阿里云安全体系和基础管控系统,确保系统能在多用户环境下安全稳定运行。

更新于 2025-09-11北京|杭州