阿里云阿里云智能-AIOps可观测算法专家-杭州
任职要求
1. 计算机、软件工程、人工智能、模式识别等相关专业; 2. 掌握LLM模型的算法原理、Fine-tuning、Prompt Engineering、向量数据库和 LangChain 等应用范式;在LLM领域…
工作职责
1. 负责LLM在运维领域的应用与落地,包括但不限于LLM/GPT、LangChain、知识图谱、图神经网络、强化学习等技术,探索智能运维与领域模型的结合,实现在业务中的应用落地; 2. 探索LLM技术在智能运维领域中的落地应用,负责算法模型研发,搭建LLM应用的框架,融入统一运维平台,为运维效率提升提供智能服务; 3. 参与领域模型的全流程工作,包括但不限于数据、训练、评测、推理部署,保证数据的高质量和有效性; 4. 探索 Agent 在复杂任务中的应用,实现基于LLM的复杂任务在智能运维领域场景的应用落地; 5. 持续跟进LLM前沿技术、开源方案及其在智能运维领域的应用。
我们是阿里云 Elasticsearch Serverless 产品研发团队,致力于通过架构与产品的深度创新,重塑搜索分析服务,让搜索更简单: 1. 参与 Serverless 平台核心系统(如管控、调度、高可用等)的架构设计与持续演进,提升系统的稳定性、可扩展性与性能表现; 2. 设计并优化产品的核心能力,包括但不限于智能弹性体系,通过智能预测、调度算法、混部能力等手段,持续提升资源的自动化效率与成本效益; 3. 深入 Elasticsearch 内核,持续攻坚在存算分离与池化架构下的性能、隔离、成本等关键技术难题,构筑产品的核心技术壁垒; 4. 主导场景化解决方案的设计与落地,将底层技术优势转化为用户价值,如研发智能慢查询诊断、一键查询优化等产品化能力,探索并实践 RAG 等 AI 能力深度融合方案; 5. 构建并完善产品的全栈可观测性体系,保障大规模集群的稳定运行,提升自动化问题定位与恢复的效率。
1)负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2)研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3)落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4)负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、技术方案设计 • 基于业务关键路径与风控等级,主导可靠性目标体系设计:SLA、SLO、SLI 定义与度量口径固化,建立 Error Budget 机制并推动准入/发布决策闭环; • 设计统一的可观测性与事件数据模型(日志/指标/链路/事件/变更),输出监控覆盖与告警分级策略; • 面向容量与资源弹性制定预测与规划方案:峰值建模、容量水位、扩缩容阈值、突增防护。 2、技术实现 • 将可靠性方案拆解为落地任务:指标接入、探针开发、告警规则、治理脚本、自动化运维工具、调度策略优化等,按规范交付; • 编写高质量自动化脚本与服务(Python/Go/Java/Shell),实现批量操作、巡检、数据对账、状态校验、健康探测与回滚; • 深度参与故障应急:值班 OnCall、事件指挥、跨团队协调、战情同步;推动 MTTA/MTTR 降低。 3、安全、稳定、效率和性能优化 • 建立全链路 SLI 指标体系:可用性、延迟、吞吐、错误率、资源利用率、队列深度、调度成功率、实例生命周期关键状态等;持续可视化与例会化分析; • 优化告警体系:告警质量指标(噪音率、误报率、漏报率、可行动性)、Alert → Incident 转换标准、分级通知矩阵; • 推进开发协同(左移):在设计、开发与测试阶段加入稳定性 CheckList(幂等性、重试策略、熔断/超时、探活、依赖降级、状态收敛)。 4、技术预研 • 预研 Chaos 工具/平台并结合业务特性沉淀标准化故障模型与韧性指标; • 评估智能告警关联、根因定位、异常检测(时序/拓扑/依赖图谱)算法的适用性与成本收益,推动 PoC 与灰度落地; • 针对下一代可观测性(日志与指标融合、采样优化、eBPF 无侵入追踪)提出演进路线。 5、技术规划 • 基于业务增长曲线、产品演进与战略项目制定年度/季度稳定性 OKR:SLO 提升、MTTR/噪音告警压降、自动化覆盖率、演练覆盖率、容量冗余下降、成本优化目标等; • 规划多活/容灾演进路线:跨 Region 容灾 → 主动故障转移 → 智能调度;分阶段 KPI(RTO/RPO、演练周期、切换自动化程度); • 制定发布与变更分级治理路线:高风险变更识别 → 准入标准 → 影子/灰度策略 → 自动化验收 → 全量放量策略 → 回滚演练常态化。
1. 参与建设阿里云内统一的智能全景可观测平台。目前该平台已服务阿里云多个主流云产品,覆盖超百万节点,日产PB+数据,是支撑云的性能乃至稳定性的基础设施。 2. 设计实现云内可观测场景的高效存储模型/系统和先进高性能查询分析引擎。为飞天系统乃至云内产品提供极致性价比和有竞争力的功能,保障核心业务的稳定性和提升用户体验 3. 结合传统的智能算法和现代大模型技术,通过对海量可观测数据的分析和垂直领域大模型的建设以及自然语言界面的链接,持续优化经典和现代AIOps效果,发现Insight,推动云内开发运维的范式跃迁 4. 设计开发云内可观测平台的运维自动化系统和工具流程的设计和开发,提升运营平台的效率与智能化水平,保障本平台7x24小时高可用