阿里云阿里云智能-运维开发-AIOps Agent工程师(售后技术方向)
任职要求
1. 计算机相关专业,本科及以上学历;具备扎实的计算机基础,熟悉操作系统、计算机网络、数据结构、数据库、分布式系统等基础知识;了解分布式系统、大数据平台或云原生相关技术的优先,具备客户专家服务经验优先,5年以上工作经验 2. 有运维开发、平台开发、自动化工具建设经验,对大模型、RAG、Agent等 A…
工作职责
我们正在招聘运维开发工程师,负责阿里云大数据&AI平台的售后智能答疑体系和客户体感稳定性体系建设,从用户服务专家的视角来处理超大规模大数据平台承载的用户问题和重保需求,持续提升运维效率,为产品稳定性和服务口碑树立持续贡献力量 该岗位以大数据&AI产品售后答疑工作为业务基础,一方面深度参与共建Agent架构下的智能答疑能力,围绕问题自助答疑、自助诊断和产品改进项提炼等核心场景进行自动化能力建设;另一方面深度参与客户体感稳定性体系和重保能力建设,在对产品架构和稳定性场景深入掌握的基础上,提炼客户实例级稳定性指标,为客户提供更前置的主动隐患发现与重保服务能力 你将与TAM、研发、SRE、平台工程、算法和产品团队协作,推动传统答疑和排查能力向智能化演进,支撑阿里云大数据&AI平台业务高速发展,共建业界一流的智能服务专家团队 工作职责: 1. 负责阿里云大数据&AI产品的售后L3答疑和服务工作,承接前方服务团队的升级工单处理和用户疑难问题排查;组织和提供大客户钉群服务能力,对头部/重要客户进行业务保障;接收客户需求提供业务巡检、大促护航、产品改进推动等重保能力交付 2. 参与基于Agent的智能答疑体系建设,结合大模型、RAG、Skills、Harness engineer等技术能力,落地根因定位、异常检测、SOP执行和运维问答等AI化运维能力 3. 参与客户体感稳定性系统建设,协同产研SRE建立实例级可用率指标,定义客户级体感可用率标准,构建细粒度封网、变更后置、主动巡检和风险发现预防等重保能力,推动客户问题发现与主动服务链路落地,为产品提供更强的增值能力 4. 负责售后支持外包团队的管理,包括答疑提效、人员培养和成本管理等职责

我们正在招聘运维开发工程师,负责阿里云大数据&AI平台的售后智能答疑体系和客户体感稳定性体系建设,从用户服务专家的视角来处理超大规模大数据平台承载的用户问题和重保需求,持续提升运维效率,为产品稳定性和服务口碑树立持续贡献力量 该岗位以大数据&AI产品售后答疑工作为业务基础,一方面深度参与共建Agent架构下的智能答疑能力,围绕问题自助答疑、自助诊断和产品改进项提炼等核心场景进行自动化能力建设;另一方面深度参与客户体感稳定性体系和重保能力建设,在对产品架构和稳定性场景深入掌握的基础上,提炼客户实例级稳定性指标,为客户提供更前置的主动隐患发现与重保服务能力 你将与TAM、研发、SRE、平台工程、算法和产品团队协作,推动传统答疑和排查能力向智能化演进,支撑阿里云大数据&AI平台业务高速发展,共建业界一流的智能服务专家团队 工作职责: 1. 负责阿里云大数据&AI产品的售后L3答疑和服务工作,承接前方服务团队的升级工单处理和用户疑难问题排查;组织和提供大客户钉群服务能力,对头部/重要客户进行业务保障;接收客户需求提供业务巡检、大促护航、产品改进推动等重保能力交付 2. 参与基于Agent的智能答疑体系建设,结合大模型、RAG、Skills、Harness engineer等技术能力,落地根因定位、异常检测、SOP执行和运维问答等AI化运维能力 3. 参与客户体感稳定性系统建设,协同产研SRE建立实例级可用率指标,定义客户级体感可用率标准,构建细粒度封网、变更后置、主动巡检和风险发现预防等重保能力,推动客户问题发现与主动服务链路落地,为产品提供更强的增值能力 4. 负责售后支持外包团队的管理,包括答疑提效、人员培养和成本管理等职责
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
1. 负责万亿级别QPS的分布式缓存/存储集群,支撑公司所有产品线的业务需求; 2. 设计、研发高可用、高性能的缓存/存储架构和中间件,应对弹性扩缩容,秒级故障自动切换,异地多活,分布式事务等极具挑战性的工作内容和方向; 3. 优化系统性能,深入内核,提升基础服务相关资源的使用率,增加系统稳定性,保障业务运行; 4. 设计并研发自动化运维平台,提升运维质量和效率,探索运维自动化和智能化技术和方向。