阿里云阿里云智能-智能运维开发-AIOps Agent工程师
任职要求
1. 计算机相关专业,本科及以上学历;具备扎实的计算机基础,熟悉操作系统、计算机网络、数据结构、数据库、分布式系统等基础知识;了解分布式系统、大数据平台或云原生相关技术的优先。3年以上工作经验。 2. 有运维开发、平台开发、自动化工具建设经验,对大模型、RAG、Agent等 AI 工程化技术和AI Coding有实践经验。 3. 熟悉至少一种主流编程语言,如 Java、Python、…
工作职责
岗位描述 我们正在招聘智能运维开发工程师,负责阿里云大数据平台的智能运维体系建设,面向超大规模大数据平台、AI 平台及相关基础设施,持续提升系统稳定性、运维效率和平台自动化能力。 该岗位将深度参与大数据平台运维平台开发、稳定性治理、AI 化改造和智能运维 Agent 建设,围绕故障发现、问题诊断、容量水位、变更风险、发布管控、监控告警、自动化处置等核心场景,建设面向超大规模复杂系统的智能化运维能力。 你将与研发、SRE、平台工程、算法和产品团队协作,推动传统运维能力向平台化、自动化、智能化演进,支撑阿里云大数据平台及 AI 平台在大规模、高复杂度、高可用要求下稳定运行。 工作职责 1. 负责阿里云大数据平台智能运维体系建设,参与运维平台、稳定性平台、自动化工具、诊断系统等核心能力的设计与开发,提升平台化、自动化和智能化运维水平。 2. 参与智能运维 Agent 建设,结合大模型、RAG、工具调用、自动化编排和知识库能力,落地日志分析、指标分析、故障归因、异常检测、根因定位、SOP 执行和运维问答等 AI 化运维能力。 3. 负责超大规模大数据平台及 AI 平台的稳定性保障,围绕监控告警、故障诊断、容量水位、链路治理、变更风险、应急处置和复盘改进等场景,持续提升系统可靠性。 4. 参与大数据平台架构演进和稳定性治理,识别系统瓶颈与稳定性风险,推动容量规划、性能优化、资源治理、容灾高可用和架构改进。
我们正在招聘运维开发工程师,负责阿里云大数据&AI平台的售后智能答疑体系和客户体感稳定性体系建设,从用户服务专家的视角来处理超大规模大数据平台承载的用户问题和重保需求,持续提升运维效率,为产品稳定性和服务口碑树立持续贡献力量 该岗位以大数据&AI产品售后答疑工作为业务基础,一方面深度参与共建Agent架构下的智能答疑能力,围绕问题自助答疑、自助诊断和产品改进项提炼等核心场景进行自动化能力建设;另一方面深度参与客户体感稳定性体系和重保能力建设,在对产品架构和稳定性场景深入掌握的基础上,提炼客户实例级稳定性指标,为客户提供更前置的主动隐患发现与重保服务能力 你将与TAM、研发、SRE、平台工程、算法和产品团队协作,推动传统答疑和排查能力向智能化演进,支撑阿里云大数据&AI平台业务高速发展,共建业界一流的智能服务专家团队 工作职责: 1. 负责阿里云大数据&AI产品的售后L3答疑和服务工作,承接前方服务团队的升级工单处理和用户疑难问题排查;组织和提供大客户钉群服务能力,对头部/重要客户进行业务保障;接收客户需求提供业务巡检、大促护航、产品改进推动等重保能力交付 2. 参与基于Agent的智能答疑体系建设,结合大模型、RAG、Skills、Harness engineer等技术能力,落地根因定位、异常检测、SOP执行和运维问答等AI化运维能力 3. 参与客户体感稳定性系统建设,协同产研SRE建立实例级可用率指标,定义客户级体感可用率标准,构建细粒度封网、变更后置、主动巡检和风险发现预防等重保能力,推动客户问题发现与主动服务链路落地,为产品提供更强的增值能力 4. 负责售后支持外包团队的管理,包括答疑提效、人员培养和成本管理等职责

我们正在招聘运维开发工程师,负责阿里云大数据&AI平台的售后智能答疑体系和客户体感稳定性体系建设,从用户服务专家的视角来处理超大规模大数据平台承载的用户问题和重保需求,持续提升运维效率,为产品稳定性和服务口碑树立持续贡献力量 该岗位以大数据&AI产品售后答疑工作为业务基础,一方面深度参与共建Agent架构下的智能答疑能力,围绕问题自助答疑、自助诊断和产品改进项提炼等核心场景进行自动化能力建设;另一方面深度参与客户体感稳定性体系和重保能力建设,在对产品架构和稳定性场景深入掌握的基础上,提炼客户实例级稳定性指标,为客户提供更前置的主动隐患发现与重保服务能力 你将与TAM、研发、SRE、平台工程、算法和产品团队协作,推动传统答疑和排查能力向智能化演进,支撑阿里云大数据&AI平台业务高速发展,共建业界一流的智能服务专家团队 工作职责: 1. 负责阿里云大数据&AI产品的售后L3答疑和服务工作,承接前方服务团队的升级工单处理和用户疑难问题排查;组织和提供大客户钉群服务能力,对头部/重要客户进行业务保障;接收客户需求提供业务巡检、大促护航、产品改进推动等重保能力交付 2. 参与基于Agent的智能答疑体系建设,结合大模型、RAG、Skills、Harness engineer等技术能力,落地根因定位、异常检测、SOP执行和运维问答等AI化运维能力 3. 参与客户体感稳定性系统建设,协同产研SRE建立实例级可用率指标,定义客户级体感可用率标准,构建细粒度封网、变更后置、主动巡检和风险发现预防等重保能力,推动客户问题发现与主动服务链路落地,为产品提供更强的增值能力 4. 负责售后支持外包团队的管理,包括答疑提效、人员培养和成本管理等职责

岗位描述 我们正在招聘智能运维开发工程师,负责阿里云大数据平台的智能运维体系建设,面向超大规模大数据平台、AI 平台及相关基础设施,持续提升系统稳定性、运维效率和平台自动化能力。 该岗位将深度参与大数据平台运维平台开发、稳定性治理、AI 化改造和智能运维 Agent 建设,围绕故障发现、问题诊断、容量水位、变更风险、发布管控、监控告警、自动化处置等核心场景,建设面向超大规模复杂系统的智能化运维能力。 你将与研发、SRE、平台工程、算法和产品团队协作,推动传统运维能力向平台化、自动化、智能化演进,支撑阿里云大数据平台及 AI 平台在大规模、高复杂度、高可用要求下稳定运行。 工作职责 1. 负责阿里云大数据平台智能运维体系建设,参与运维平台、稳定性平台、自动化工具、诊断系统等核心能力的设计与开发,提升平台化、自动化和智能化运维水平。 2. 参与智能运维 Agent 建设,结合大模型、RAG、工具调用、自动化编排和知识库能力,落地日志分析、指标分析、故障归因、异常检测、根因定位、SOP 执行和运维问答等 AI 化运维能力。 3. 负责超大规模大数据平台及 AI 平台的稳定性保障,围绕监控告警、故障诊断、容量水位、链路治理、变更风险、应急处置和复盘改进等场景,持续提升系统可靠性。 4. 参与大数据平台架构演进和稳定性治理,识别系统瓶颈与稳定性风险,推动容量规划、性能优化、资源治理、容灾高可用和架构改进。