logo of aligenie

智能互联阿里云智能-智能运维开发-AIOps Agent工程师

社招全职3年以上地点:杭州状态:招聘

任职要求


1. 计算机相关专业,本科及以上学历;具备扎实的计算机基础,熟悉操作系统、计算机网络、数据结构、数据库、分布式系统等基础知识;了解分布式系统大数据平台或云原生相关技术的优先。3年以上工作经验。
2. 有运维开发、平台开发、自动化工具建设经验,对大模型RAGAgent等 AI 工程化技术和AI Coding有实践经验。
3. 熟悉至少一种主流编程语言,如 Java、Python、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位描述
我们正在招聘智能运维开发工程师,负责阿里云大数据平台的智能运维体系建设,面向超大规模大数据平台、AI 平台及相关基础设施,持续提升系统稳定性、运维效率和平台自动化能力。
该岗位将深度参与大数据平台运维平台开发、稳定性治理、AI 化改造和智能运维 Agent 建设,围绕故障发现、问题诊断、容量水位、变更风险、发布管控、监控告警、自动化处置等核心场景,建设面向超大规模复杂系统的智能化运维能力。
你将与研发、SRE、平台工程、算法和产品团队协作,推动传统运维能力向平台化、自动化、智能化演进,支撑阿里云大数据平台及 AI 平台在大规模、高复杂度、高可用要求下稳定运行。
工作职责
1. 负责阿里云大数据平台智能运维体系建设,参与运维平台、稳定性平台、自动化工具、诊断系统等核心能力的设计与开发,提升平台化、自动化和智能化运维水平。
2. 参与智能运维 Agent 建设,结合大模型、RAG、工具调用、自动化编排和知识库能力,落地日志分析、指标分析、故障归因、异常检测、根因定位、SOP 执行和运维问答等 AI 化运维能力。
3. 负责超大规模大数据平台及 AI 平台的稳定性保障,围绕监控告警、故障诊断、容量水位、链路治理、变更风险、应急处置和复盘改进等场景,持续提升系统可靠性。
4. 参与大数据平台架构演进和稳定性治理,识别系统瓶颈与稳定性风险,推动容量规划、性能优化、资源治理、容灾高可用和架构改进。
包括英文材料
学历+
数据结构+
分布式系统+
大数据+
大模型+
RAG+
还有更多 •••
相关职位

logo of aliyun
社招2年以上诚云科技

1、负责阿里云开源大数据平台(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)运维工作,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-09-28北京|杭州
logo of aliyun
社招3年以上诚云科技

1、负责阿里云开源大数据平台(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)运维工作,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-09-25北京|杭州
logo of aliyun
社招3年以上诚云科技

1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-10-12北京|杭州
logo of aliyun
社招1年以上云智能集团

1、大模型服务架构设计:主导多模态LLM服务化架构与模型调度中台建设,实现自研/云服务/三方模型的弹性调度与资源优化,支撑代码生成、智能问答等高并发AI场景; 2、AI产品工程化落地:负责海量用户级AI编程平台服务端架构设计,构建高可用微服务架构,主导及支撑智能补全、代码智能体等核心场景的技术实现; 3、云原生运维体系构建:基于多Region架构设计服务网格治理、全链路监控及混沌工程方案,实现租户资源隔离、故障自愈能力; 4、安全风控系统开发:设计租户权限控制模型,构建金融级交易风控系统,覆盖身份核验、支付安全及交易全生命周期管理; 5、技术生态创新:推动AIOps、Serverless等技术在AI场景的落地,协同优化模型推理加速方案,构建测试-迭代-部署的DevOps闭环。

更新于 2025-11-20杭州