logo of alibaba

阿里巴巴基础设施与稳定性工程-AIOps Agent 研发工程师-杭州

社招全职2年以上地点:杭州状态:招聘

任职要求


● 2 年以上复杂系统开发经验,具备技术路线规划能力,能主导从需求分析、方案设计到工程落地的全流程;具备良好的系统架构思维,关注性能、质量、扩展性与前瞻性。
● 编程基础扎实,精通Python/Go/Java/Rust中至少一门语言,具备扎实的工程基础;熟悉分布式系统设计,包括缓存、消息队列、微服务治理等。
● 具备大模型(LLM)在复杂系统中的实际落地经验,并持续优化效果(如评估指标、反馈闭环),能评估 LLM 在风险场景中的可靠性、边界与误判风险(如 hallucination、误报/漏报)。
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


主导集团稳定性领域核心系统的设计与开发,重点建设风险左移和故障事前检测能力,覆盖从变更前存量风险扫描、变更时自动检测到运行态防御的全链路风险治理体系,并结合 AI 大模型提升故障全生命周期各环节的智能化水平。

● 风险左移与事前检测体系建设:主导设计变更前存量风险扫描(如容量基线监控、静态代码质量扫描、依赖拓扑治理、隐性健康度巡检等)的技术方案,将风险发现从"事中排查和事后复盘"前移至"事前拦截"
● AI 驱动的风险检测引擎:基于大模型和 AI Agent 技术,建设智能化风险检测能力,包括但不限于:代码变更 Diff + AST 调用链的结构化风险分析、历史故障模式的向量化检索与自动匹配、SOP 完备性的 LLM 推理引擎等
● 风险检测数据底座建设:设计并落地风险检测所需的数据资产体系,打通变更上下文(Diff、配置值、发布计划)、服务依赖拓扑、容量基线、SOP 知识图谱等多源数据,解决"信息不可达"导致风险无法识别的核心瓶颈
● 故障诊断与快恢能力建设:通过历史故障结构化分析,沉淀故障排查、定位和恢复的标准 SOP,结合 AI 建设故障自动诊断与智能恢复能力,降低 MTTR

系统架构与工程卓越:持续优化系统高可用架构、性能调优、全链路监控与容灾预案,解决高并发、低延迟、高可靠性等复杂技术挑战
包括英文材料
Python+
Go+
Java+
Rust+
分布式系统+
缓存+
还有更多 •••