阿里云阿里云智能-智能运维开发工程师-AIOps Agent方向
任职要求
1. 深入理解 ElasticSearch、EMR、Spark、StarRocks 等分布式系统技术架构和调用链路,熟悉阿里云云原生架构与网络架构。 2. 3 年以上云计算/AI相关工作经验,具备某一大产品领域知识(基础设施,网络,云原生)+AI领域知识,经历过大型互联网系统的保障建设以及AI系统建设。 有大规模业务迁移(跨云、跨机房、跨架构)的方案设计与落地经验 优先。 3. 了解AI领域前沿技术进展,熟练掌握AI工具,对全栈AI(AI Infra,MAAS以及AI工程应用)有具体实践经验。 4. 有运维开发、平…
工作职责
1. 负责超大规模大数据平台及 AI平台的稳定性保障,围绕监控告警、故障诊断、容量水位、链路治理、变更风险、应急处置和复盘改进等场景,持续提升系统可靠性。 2. 负责生产环境部署、发布、扩缩容、迁移等关键场景的稳定性保障,沉淀交付与运营的标准化方案。 3. 负责支持客户业务平稳迁移方案设计、适配、风险评估,在迁移关键节点提供稳定性兜底。 4. 参与智能运维 Agent建设,结合大模型、RAG、工具调用、自动化编排和知识库能力,落地日志分 析、指标分析、故障归因、异常检测、根因定位、SOP 执行和运维问答等AI化运维能力。

1. 负责超大规模大数据平台及 AI平台的稳定性保障,围绕监控告警、故障诊断、容量水位、链路治理、变更风险、应急处置和复盘改进等场景,持续提升系统可靠性。 2. 负责生产环境部署、发布、扩缩容、迁移等关键场景的稳定性保障,沉淀交付与运营的标准化方案。 3. 负责支持客户业务平稳迁移方案设计、适配、风险评估,在迁移关键节点提供稳定性兜底。 4. 参与智能运维 Agent建设,结合大模型、RAG、工具调用、自动化编排和知识库能力,落地日志分 析、指标分析、故障归因、异常检测、根因定位、SOP 执行和运维问答等AI化运维能力。
1、参与设计和开发AIOps解决方案,帮助实现希音运维的智能化。 2、参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 3、打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。
1.Agent核心框架研发: 负责排障AI Agent的核心框架设计与开发,包括任务规划(Planning)、工具调用(Tool-use)、记忆(Memory)等关键模块,持续提升Agent的自主决策与执行能力; 2.Agent效果评测与迭代: 主导设计并落地Agent自动化评测体系,并基于线上失效案例(如规划错误、幻觉)的深入分析,驱动模型、Prompt及工具链的持续优化; 3.大模型后训练与优化: 负责大模型的后训练流程,包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略,并建立评测-训练-部署的闭环,持续提升模型在排障领域的专业能力。
1.Agent核心框架研发: 负责排障AI Agent的核心框架设计与开发,包括任务规划(Planning)、工具调用(Tool-use)、记忆(Memory)等关键模块,持续提升Agent的自主决策与执行能力; 2.Agent效果评测与迭代: 主导设计并落地Agent自动化评测体系,并基于线上失效案例(如规划错误、幻觉)的深入分析,驱动模型、Prompt及工具链的持续优化; 3.大模型后训练与优化: 负责大模型的后训练流程,包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略,并建立评测-训练-部署的闭环,持续提升模型在排障领域的专业能力。