阿里云阿里云智能-AIOps可观测算法专家-杭州
任职要求
1. 计算机、软件工程、人工智能、模式识别等相关专业; 2. 掌握LLM模型的算法原理、Fine-tuning、Prompt Engineering、向量数据库和 LangChain 等应用范式;在LLM领域…
工作职责
1. 负责LLM在运维领域的应用与落地,包括但不限于LLM/GPT、LangChain、知识图谱、图神经网络、强化学习等技术,探索智能运维与领域模型的结合,实现在业务中的应用落地; 2. 探索LLM技术在智能运维领域中的落地应用,负责算法模型研发,搭建LLM应用的框架,融入统一运维平台,为运维效率提升提供智能服务; 3. 参与领域模型的全流程工作,包括但不限于数据、训练、评测、推理部署,保证数据的高质量和有效性; 4. 探索 Agent 在复杂任务中的应用,实现基于LLM的复杂任务在智能运维领域场景的应用落地; 5. 持续跟进LLM前沿技术、开源方案及其在智能运维领域的应用。
1. 研发可观测核心算子:负责设计与研发面向海量可观测数据的核心算法算子,实现对海量原始数据的高效预处理与特征提取,为上层智能应用提供高质量输入; 2. 参与 AIOps Agent 设计与研发:负责 LLM 驱动的 AIOps Agent 的核心算法研发。通过多 Agent 架构解决复杂场景下的根因定位、影响评估、智能巡检、辅助运维等难题; 3. 构建并应用 AIOps Benchmark 体系:设计和落地具有业界影响力的 AIOps Benchmark 评测体系。通过系统化的故障注入与案例复盘,构建覆盖广泛、高度真实的评测数据集,用于度量和持续优化 AIOps 系统的泛化能力; 4. 探索前沿模型训练与优化技术:运用监督微调(SFT)、强化学习(RLHF)等前沿技术,针对 AIOps 中的关键过程进行模型优化和迭代,持续提升 AIOps 的准确性和性能; 5. 追踪前沿并推动技术落地:持续追踪和研究 LLM、Agent、知识图谱、图神经网络等技术在 AIOps 领域的前沿进展,结合阿里云可观测产品的实际场景,探索和推动前沿技术的应用与落地,构建技术壁垒。
我们的愿景:【数据驱动智能,观测重构治理】 在专有云(Apsara Stack)这一数字化转型的技术深水区,我们正在打造 AI 驱动的可观测性中枢。通过高性能引擎与 LLM(大语言模型)的协同,我们致力于在海量、异构的专有云环境中,为政企客户提供秒级故障定位体验。 在这里,你处理的是关乎国计民生的核心基础设施,你定义的每一行代码都在构建一个**“可预测、自修复”**的数字底座。
1、技术方案设计 • 基于业务关键路径与风控等级,主导可靠性目标体系设计:SLA、SLO、SLI 定义与度量口径固化,建立 Error Budget 机制并推动准入/发布决策闭环; • 设计统一的可观测性与事件数据模型(日志/指标/链路/事件/变更),输出监控覆盖与告警分级策略; • 面向容量与资源弹性制定预测与规划方案:峰值建模、容量水位、扩缩容阈值、突增防护。 2、技术实现 • 将可靠性方案拆解为落地任务:指标接入、探针开发、告警规则、治理脚本、自动化运维工具、调度策略优化等,按规范交付; • 编写高质量自动化脚本与服务(Python/Go/Java/Shell),实现批量操作、巡检、数据对账、状态校验、健康探测与回滚; • 深度参与故障应急:值班 OnCall、事件指挥、跨团队协调、战情同步;推动 MTTA/MTTR 降低。 3、安全、稳定、效率和性能优化 • 建立全链路 SLI 指标体系:可用性、延迟、吞吐、错误率、资源利用率、队列深度、调度成功率、实例生命周期关键状态等;持续可视化与例会化分析; • 优化告警体系:告警质量指标(噪音率、误报率、漏报率、可行动性)、Alert → Incident 转换标准、分级通知矩阵; • 推进开发协同(左移):在设计、开发与测试阶段加入稳定性 CheckList(幂等性、重试策略、熔断/超时、探活、依赖降级、状态收敛)。 4、技术预研 • 预研 Chaos 工具/平台并结合业务特性沉淀标准化故障模型与韧性指标; • 评估智能告警关联、根因定位、异常检测(时序/拓扑/依赖图谱)算法的适用性与成本收益,推动 PoC 与灰度落地; • 针对下一代可观测性(日志与指标融合、采样优化、eBPF 无侵入追踪)提出演进路线。 5、技术规划 • 基于业务增长曲线、产品演进与战略项目制定年度/季度稳定性 OKR:SLO 提升、MTTR/噪音告警压降、自动化覆盖率、演练覆盖率、容量冗余下降、成本优化目标等; • 规划多活/容灾演进路线:跨 Region 容灾 → 主动故障转移 → 智能调度;分阶段 KPI(RTO/RPO、演练周期、切换自动化程度); • 制定发布与变更分级治理路线:高风险变更识别 → 准入标准 → 影子/灰度策略 → 自动化验收 → 全量放量策略 → 回滚演练常态化。
1. 参与建设阿里云内统一的智能全景可观测平台。目前该平台已服务阿里云多个主流云产品,覆盖超百万节点,日产PB+数据,是支撑云的性能乃至稳定性的基础设施。 2. 设计实现云内可观测场景的高效存储模型/系统和先进高性能查询分析引擎。为飞天系统乃至云内产品提供极致性价比和有竞争力的功能,保障核心业务的稳定性和提升用户体验 3. 结合传统的智能算法和现代大模型技术,通过对海量可观测数据的分析和垂直领域大模型的建设以及自然语言界面的链接,持续优化经典和现代AIOps效果,发现Insight,推动云内开发运维的范式跃迁 4. 设计开发云内可观测平台的运维自动化系统和工具流程的设计和开发,提升运营平台的效率与智能化水平,保障本平台7x24小时高可用