阿里云阿里云智能-AIOps Agent 研发专家-ABM 平台研发
任职要求
1. 计算机相关专业本科及以上学历,扎实的计算机基础(操作系统、计算机网络、数据结构、数据库、分布式系统),具备较为丰富的后端 / 平台 / SRE / 基础设施研发经验;5年及以上相关经验。 2. AI 工程化能力:具备大模型、RAG、Agent、工具调用、AI Coding 等 AI 工程化落地经验,理解 Agent 在复杂系统中的任务拆解、工具执行、上下文管理、权限控制、结果校验、失败兜底、效果评估等关键工程问题。 3. 运维平台研发经验:有运维平台、SRE 平台、稳定性平台、自动化运维工具或基础设施平台研发经验,熟悉监控告警、日志分析、故障诊断、发布变更、容量治理、巡检治理、自动化处置中的一个或多个领域…
工作职责
我们正在招聘 AIOps Agent 研发专家,作为核心研发参与阿里云计算平台下的运维平台 Agent 体系的架构设计与系统实现,服务阿里云计算平台产品,把传统工具化、流程化的运维能力研发升级为 AI Native 的平台化、自动化、自主化产品。 工作职责: 1. 负责运维平台 Agent 工程链路研发,让 Agent 在真实运维场景下做到稳定可控、可观测、可治理。 2. 基于大模型、RAG 与自动化编排,端到端研发异常处置、机器自愈、变更风险拦截、Context 底座等,把目前碎片化、流程化的运维能力重构为完整的 Agent 协同产品。 3. GitOps × IaC 变更能力建设:负责 GitOps x Iac 的变更能力建设,覆盖应用与基础设施资源,保障不同产品形态下的统一管控模型与大规模变更场景下的稳定性,并具备 Agent 协同执行的能力。 4. 中台 AI 自主开发能力研发:研发可供 AI 自主行动的中台与 SRE 服务环境,推动中台需求开发与交付向 AI Native 模式演进,让 AI 在真实工程语境下安全完成闭环并保证可审计、可回滚。 5. 平台关键能力研发与稳定性保障:承接运维平台的关键模块的设计、开发、演进与稳定性治理,保障关键服务可用性、监控覆盖与交付质量,并按横向项目节奏推进代码合一、独立部署等研发要求。 6. 与 SRE、算法团队一起,协同识别效率瓶颈与稳定性风险,主导 AI Native 工程方法与研发范式在团队内沉淀。

我们正在招聘 AIOps Agent 研发专家,作为核心研发参与阿里云计算平台下的运维平台 Agent 体系的架构设计与系统实现,服务阿里云计算平台产品,把传统工具化、流程化的运维能力研发升级为 AI Native 的平台化、自动化、自主化产品。 工作职责: 1. 负责运维平台 Agent 工程链路研发,让 Agent 在真实运维场景下做到稳定可控、可观测、可治理。 2. 基于大模型、RAG 与自动化编排,端到端研发异常处置、机器自愈、变更风险拦截、Context 底座等,把目前碎片化、流程化的运维能力重构为完整的 Agent 协同产品。 3. GitOps × IaC 变更能力建设:负责 GitOps x Iac 的变更能力建设,覆盖应用与基础设施资源,保障不同产品形态下的统一管控模型与大规模变更场景下的稳定性,并具备 Agent 协同执行的能力。 4. 中台 AI 自主开发能力研发:研发可供 AI 自主行动的中台与 SRE 服务环境,推动中台需求开发与交付向 AI Native 模式演进,让 AI 在真实工程语境下安全完成闭环并保证可审计、可回滚。 5. 平台关键能力研发与稳定性保障:承接运维平台的关键模块的设计、开发、演进与稳定性治理,保障关键服务可用性、监控覆盖与交付质量,并按横向项目节奏推进代码合一、独立部署等研发要求。 6. 与 SRE、算法团队一起,协同识别效率瓶颈与稳定性风险,主导 AI Native 工程方法与研发范式在团队内沉淀。
1. 负责LLM在运维领域的应用与落地,包括但不限于LLM/GPT、LangChain、知识图谱、图神经网络、强化学习等技术,探索智能运维与领域模型的结合,实现在业务中的应用落地; 2. 探索LLM技术在智能运维领域中的落地应用,负责算法模型研发,搭建LLM应用的框架,融入统一运维平台,为运维效率提升提供智能服务; 3. 参与领域模型的全流程工作,包括但不限于数据、训练、评测、推理部署,保证数据的高质量和有效性; 4. 探索 Agent 在复杂任务中的应用,实现基于LLM的复杂任务在智能运维领域场景的应用落地; 5. 持续跟进LLM前沿技术、开源方案及其在智能运维领域的应用。
1、负责火山引擎平台稳定性领域相关的AIOps场景(智能监控、变更风险识别和检测、事故/问题根因定位、告警聚合、架构治理、成本优化等)的业务与架构方案设计、研发及SRE Agent能力建设; 2、负责火山引擎的平台架构工程系统研发,包括需求分析、系统设计、编码实现、测试等工作; 3、负责火山引擎稳定性领域平台的建设,包括监控、预警、故障排查和恢复等平台功能设计与研发。