logo of aligenie

智能互联阿里云智能-AIOps Agent 研发专家-ABM 平台研发

社招全职5年以上地点:杭州状态:招聘

任职要求


1. 计算机相关专业本科及以上学历,扎实的计算机基础(操作系统、计算机网络、数据结构、数据库、分布式系统),具备较为丰富的后端 / 平台 / SRE / 基础设施研发经验;5年及以上相关经验。
2. AI 工程化能力:具备大模型RAGAgent、工具调用、AI Coding 等 AI 工程化落地经验,理解 Agent 在复杂系统中的任务拆解、工具执行、上下文管理、权限控制、结果校验、失败兜底、效果评估等关键工程问题。
3. 运维平台研发经验:有运维平台、SRE 平台、稳定性平台、自动化运维工具或基础设施平台研发经验,熟悉监控告警、日志分析、故障诊断、发布变更、容量治理、巡检治理、自动化处置中的一个或多个领域…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在招聘 AIOps Agent 研发专家,作为核心研发参与阿里云计算平台下的运维平台 Agent 体系的架构设计与系统实现,服务阿里云计算平台产品,把传统工具化、流程化的运维能力研发升级为 AI Native 的平台化、自动化、自主化产品。

工作职责:

1. 负责运维平台 Agent 工程链路研发,让 Agent 在真实运维场景下做到稳定可控、可观测、可治理。
2. 基于大模型、RAG 与自动化编排,端到端研发异常处置、机器自愈、变更风险拦截、Context 底座等,把目前碎片化、流程化的运维能力重构为完整的 Agent 协同产品。
3. GitOps × IaC 变更能力建设:负责 GitOps x Iac 的变更能力建设,覆盖应用与基础设施资源,保障不同产品形态下的统一管控模型与大规模变更场景下的稳定性,并具备 Agent 协同执行的能力。
4. 中台 AI 自主开发能力研发:研发可供 AI 自主行动的中台与 SRE 服务环境,推动中台需求开发与交付向 AI Native 模式演进,让 AI 在真实工程语境下安全完成闭环并保证可审计、可回滚。
5. 平台关键能力研发与稳定性保障:承接运维平台的关键模块的设计、开发、演进与稳定性治理,保障关键服务可用性、监控覆盖与交付质量,并按横向项目节奏推进代码合一、独立部署等研发要求。
6. 与 SRE、算法团队一起,协同识别效率瓶颈与稳定性风险,主导 AI Native 工程方法与研发范式在团队内沉淀。
包括英文材料
学历+
数据结构+
分布式系统+
大模型+
RAG+
AI agent+
Kubernetes+
微服务+
消息队列+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

我们正在招聘 AIOps Agent 研发专家,作为核心研发参与阿里云计算平台下的运维平台 Agent 体系的架构设计与系统实现,服务阿里云计算平台产品,把传统工具化、流程化的运维能力研发升级为 AI Native 的平台化、自动化、自主化产品。 工作职责: 1. 负责运维平台 Agent 工程链路研发,让 Agent 在真实运维场景下做到稳定可控、可观测、可治理。 2. 基于大模型、RAG 与自动化编排,端到端研发异常处置、机器自愈、变更风险拦截、Context 底座等,把目前碎片化、流程化的运维能力重构为完整的 Agent 协同产品。 3. GitOps × IaC 变更能力建设:负责 GitOps x Iac 的变更能力建设,覆盖应用与基础设施资源,保障不同产品形态下的统一管控模型与大规模变更场景下的稳定性,并具备 Agent 协同执行的能力。 4. 中台 AI 自主开发能力研发:研发可供 AI 自主行动的中台与 SRE 服务环境,推动中台需求开发与交付向 AI Native 模式演进,让 AI 在真实工程语境下安全完成闭环并保证可审计、可回滚。 5. 平台关键能力研发与稳定性保障:承接运维平台的关键模块的设计、开发、演进与稳定性治理,保障关键服务可用性、监控覆盖与交付质量,并按横向项目节奏推进代码合一、独立部署等研发要求。 6. 与 SRE、算法团队一起,协同识别效率瓶颈与稳定性风险,主导 AI Native 工程方法与研发范式在团队内沉淀。

更新于 2026-06-11杭州
logo of aliyun
社招5年以上云智能集团

1. 研发可观测核心算子:负责设计与研发面向海量可观测数据的核心算法算子,实现对海量原始数据的高效预处理与特征提取,为上层智能应用提供高质量输入; 2. 参与 AIOps Agent 设计与研发:负责 LLM 驱动的 AIOps Agent 的核心算法研发。通过多 Agent 架构解决复杂场景下的根因定位、影响评估、智能巡检、辅助运维等难题; 3. 构建并应用 AIOps Benchmark 体系:设计和落地具有业界影响力的 AIOps Benchmark 评测体系。通过系统化的故障注入与案例复盘,构建覆盖广泛、高度真实的评测数据集,用于度量和持续优化 AIOps 系统的泛化能力; 4. 探索前沿模型训练与优化技术:运用监督微调(SFT)、强化学习(RLHF)等前沿技术,针对 AIOps 中的关键过程进行模型优化和迭代,持续提升 AIOps 的准确性和性能; 5. 追踪前沿并推动技术落地:持续追踪和研究 LLM、Agent、知识图谱、图神经网络等技术在 AIOps 领域的前沿进展,结合阿里云可观测产品的实际场景,探索和推动前沿技术的应用与落地,构建技术壁垒。

更新于 2025-11-20杭州
logo of aliyun
社招5年以上云智能集团

1、负责运维管控系统子模块设计和研发工作,如部署升级系统、根因分析系统、监控告警体系、故障自愈系统等; 2、负责可观测性平台系统的设计和研发工作,提升服务质量和系统的可观测能力; 3、制定交付标准和运维规范,通过自动化的方式,提升系统运行的效率及稳定性。

更新于 2025-11-27杭州|上海
logo of aliyun
社招云智能集团

1. 负责LLM在运维领域的应用与落地,包括但不限于LLM/GPT、LangChain、知识图谱、图神经网络、强化学习等技术,探索智能运维与领域模型的结合,实现在业务中的应用落地; 2. 探索LLM技术在智能运维领域中的落地应用,负责算法模型研发,搭建LLM应用的框架,融入统一运维平台,为运维效率提升提供智能服务; 3. 参与领域模型的全流程工作,包括但不限于数据、训练、评测、推理部署,保证数据的高质量和有效性; 4. 探索 Agent 在复杂任务中的应用,实现基于LLM的复杂任务在智能运维领域场景的应用落地; 5. 持续跟进LLM前沿技术、开源方案及其在智能运维领域的应用。

更新于 2025-07-23杭州