
智能互联阿里云智能-大数据&AI平台智能运维算法专家-异常检测/根因定位
任职要求
1、硕士研究生及以上学历,计算机、软件工程、人工智能等相关专业,5年及以上算法研发经验。 2、具备扎实的机器学习、深度学习算法和统计学基础,熟悉主流预训练模型,熟练掌握Pytorch/Tensorflow等框架。拥有优秀的编程能力,精通Python/Java等至少一门编程语言,具备从算法设计到高质量代码落地的全栈实现能力。理解LLM原理,具备微调、RAG、Agent应用构建的相关经验,熟悉Dify、Langchain等框架。 3、有智能运维(AIOps)领域项目经验者优先,包括时间序列异常检测、日志聚…
工作职责
我们正在寻找具备扎实算法研发能力和系统工程思维的技术人才,共同构建面向超大规模云环境的新一代智能运维(AIOps)体系。你将深度参与从问题定义到算法落地的完整闭环,推动AI技术在稳定性保障、故障诊断、效率提升等关键场景中的创新应用。
主要职责包括但不限于:
1. 业务需求分析与算法方案设计
○ 深入理解阿里云大数据与AI平台在稳定性、性能优化、运维提效等方面的运维痛点,识别核心问题场景,明确算法目标与交付边界;
○ 将复杂运维场景抽象为可建模的问题,结合业界前沿技术完成技术选型与算法方案设计,相关技术包括但不限于:
■ 多维度时间序列异常检测与预测
■ 日志模式提取、聚类与异常识别
■ 关联分析和因果推断
■ 大模型微调(Fine-tuning)与检索增强生成(RAG)
■ 大模型智能体
2. 算法工程化实现与系统建设
○ 按照团队的算法开发工程规范,完成端到端的算法工程化落地,包括数据清洗、特征工程、模型训练与推理流程的设计与开发等;
○ 设计并建立算法服务的SLA体系,涵盖准确性、响应延迟、稳定性及可扩展性,支撑高并发、低延迟的线上服务能力;
○ 将算法能力集成至智能运维平台,并进行相关产品能力建设,支撑包括变更风险巡检、根因定位、智能答疑等功能模块。
3. 算法评估与调优
○ 构建科学的测试验证机制量化评估算法效果;建立离线评测与在线A/B测试联动机制,驱动算法持续优化与产品价值验证;
○ 根据实际运行反馈与性能瓶颈,通过参数调优、模型轻量化、计算逻辑重构等方式提升算法效率与准确率。
4. 前沿技术探索与体系建设
○ 密切跟踪AIOps、时间序列分析、大模型智能体、强化学习、因果推断、知识图谱等领域的最新进展,积极探索AI新技术在运维场景中的落地可能性,助力打造下一代自治云平台。1、承担MaxCompute管控系统架构师角色,负责产品技术架构演进方向 2、面向全球不同客户设计合理的产品方案,梳理存储、计算、售卖、控制台、运维体系架构,确定技术方案选型 3、承担MaxCompute管控系统设计、研发、测试、发布与运维 4、与MaxCompute各研发团队+SRE中台团队+阿里云售卖平台配合,共同推进技术项目按要求落地
1. 为阿里云核心自研大数据引擎产品Hologres的竞争力负责,规划、设计、交付有市场竞争力的产品能力。 2. 为阿里云核心自研大数据引擎产品的市场占有率、业务增长负责,协调上下游资源,服务客户增长。 3. 输出大数据解决方案技术架构与价值定位,提高市场对阿里大数据使用实践认可度。
1. 负责SQL引擎核心优化,深入理解线上业务SQL使用方式,关注业界通用Benchmark,分析性能瓶颈并针对性改进等。 2. 负责SQL引擎增量计算能力演进,打造业界领先的增量计算产品 3. 负责MC智能数仓的开发和能力建设,提升MC整体的性价比和易用性 4. 支持SQL引擎线上业务,包括疑难问题答疑、线上稳定性改进、提升系统可观测性及用户使用体验等。
1. 参与MaxCompute大数据+AI一体化框架和运行平台的设计、开发与技术演进,支撑阿里集团内部和公有云上的Data+AI一体化计算场景; 2. 能够独立完成项目需要的系统分析、设计,编码,测试和上线部署任务,确保项目的进度、质量和稳定性要求; 3. 技术基础扎实,沟通和团队合作流畅,乐于分享,能够积极参与团队中的设计评审和代码评审工作,并能给出相关改进建议; 4. 有一定的技术前瞻性,可以对平台演进中的技术需求(如AI训练中异构环境的数据处理加速)进行预研和设计,满足对大数据+AI平台快速发展过程中,对各项业务场景的客户需求; 5.该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。