阿里巴巴基础设施与稳定性工程-AIOps Agent 研发工程师-杭州
社招全职2年以上地点:杭州状态:招聘
任职要求
● 2 年以上复杂系统开发经验,具备技术路线规划能力,能主导从需求分析、方案设计到工程落地的全流程;具备良好的系统架构思维,关注性能、质量、扩展性与前瞻性。 ● 编程基础扎实,精通Python/Go/Java/Rust中至少一门语言,具备扎实的工程基础;熟悉分布式系统设计,包括缓存、消息队列、微服务治理等。 ● 具备大模型(LLM)在复杂系统中的实际落地经验,并持续优化效果(如评估指标、反馈闭环),能评估 LLM 在风险场景中的可靠性、边界与误判风险(如 hallucination、误报/漏报)。 …
登录查看完整任职要求
微信扫码,1秒登录
工作职责
主导集团稳定性领域核心系统的设计与开发,重点建设风险左移和故障事前检测能力,覆盖从变更前存量风险扫描、变更时自动检测到运行态防御的全链路风险治理体系,并结合 AI 大模型提升故障全生命周期各环节的智能化水平。 ● 风险左移与事前检测体系建设:主导设计变更前存量风险扫描(如容量基线监控、静态代码质量扫描、依赖拓扑治理、隐性健康度巡检等)的技术方案,将风险发现从"事中排查和事后复盘"前移至"事前拦截" ● AI 驱动的风险检测引擎:基于大模型和 AI Agent 技术,建设智能化风险检测能力,包括但不限于:代码变更 Diff + AST 调用链的结构化风险分析、历史故障模式的向量化检索与自动匹配、SOP 完备性的 LLM 推理引擎等 ● 风险检测数据底座建设:设计并落地风险检测所需的数据资产体系,打通变更上下文(Diff、配置值、发布计划)、服务依赖拓扑、容量基线、SOP 知识图谱等多源数据,解决"信息不可达"导致风险无法识别的核心瓶颈 ● 故障诊断与快恢能力建设:通过历史故障结构化分析,沉淀故障排查、定位和恢复的标准 SOP,结合 AI 建设故障自动诊断与智能恢复能力,降低 MTTR 系统架构与工程卓越:持续优化系统高可用架构、性能调优、全链路监控与容灾预案,解决高并发、低延迟、高可靠性等复杂技术挑战
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
Rust+
https://www.youtube.com/watch?v=BpPEoZW5IiY
In this comprehensive Rust course for beginners, you will learn about the core concepts of the language and underlying mechanisms in theory.
https://www.youtube.com/watch?v=lzKeecy4OmQ
Full Rust 101 Crash Course for beginners.
https://www.youtube.com/watch?v=rQ_J9WH6CGk
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
缓存+
https://hackernoon.com/the-system-design-cheat-sheet-cache
The cache is a layer that stores a subset of data, typically the most frequently accessed or essential information, in a location quicker to access than its primary storage location.
https://www.youtube.com/watch?v=bP4BeUjNkXc
Caching strategies, Distributed Caching, Eviction Policies, Write-Through Cache and Least Recently Used (LRU) cache are all important terms when it comes to designing an efficient system with a caching layer.
https://www.youtube.com/watch?v=dGAgxozNWFE
还有更多 •••