拼多多大数据SRE平台研发工程师/专家
任职要求
1. 计算机基础知识扎实,包括操作系统、计算机网络、数据结构、基础算法、数据库等; 2. 编程能力扎实,至少熟练掌握Java/Python一门以上编程或脚本语言,有清晰的编程思路; 3. 热衷于并擅长troubleshooting 和 performance tuning,喜好专治各种性能和异常的疑难杂症,并乐于做技术剖析、总结沉淀; 4…
工作职责
1. 负责大数据集群和复杂业务场景的自动化及管控平台建设; 2. CI/CD系统建设,服务变更管理、灰度发布及对应工具平台建设。
1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。
1、云产品稳定性保障,风险巡检:客户云产品稳定性、体验相关事项治理,产品风险巡检,故障的应急跟进与处理; 2、客户技术专项处置与支持:复杂、疑难问题/技术方案/活动护航保障/产研共建专项主导与管理工作; 3、排查问题,管控体验:高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情; 4、专精客户行业,技术沉淀:提炼客户行业技术服务方案,沉淀内部技术文档,持续提高公共云/混合云各行业最佳实践能力;
我们正在招聘运维开发工程师,负责阿里云大数据&AI平台的售后智能答疑体系和客户体感稳定性体系建设,从用户服务专家的视角来处理超大规模大数据平台承载的用户问题和重保需求,持续提升运维效率,为产品稳定性和服务口碑树立持续贡献力量 该岗位以大数据&AI产品售后答疑工作为业务基础,一方面深度参与共建Agent架构下的智能答疑能力,围绕问题自助答疑、自助诊断和产品改进项提炼等核心场景进行自动化能力建设;另一方面深度参与客户体感稳定性体系和重保能力建设,在对产品架构和稳定性场景深入掌握的基础上,提炼客户实例级稳定性指标,为客户提供更前置的主动隐患发现与重保服务能力 你将与TAM、研发、SRE、平台工程、算法和产品团队协作,推动传统答疑和排查能力向智能化演进,支撑阿里云大数据&AI平台业务高速发展,共建业界一流的智能服务专家团队 工作职责: 1. 负责阿里云大数据&AI产品的售后L3答疑和服务工作,承接前方服务团队的升级工单处理和用户疑难问题排查;组织和提供大客户钉群服务能力,对头部/重要客户进行业务保障;接收客户需求提供业务巡检、大促护航、产品改进推动等重保能力交付 2. 参与基于Agent的智能答疑体系建设,结合大模型、RAG、Skills、Harness engineer等技术能力,落地根因定位、异常检测、SOP执行和运维问答等AI化运维能力 3. 参与客户体感稳定性系统建设,协同产研SRE建立实例级可用率指标,定义客户级体感可用率标准,构建细粒度封网、变更后置、主动巡检和风险发现预防等重保能力,推动客户问题发现与主动服务链路落地,为产品提供更强的增值能力 4. 负责售后支持外包团队的管理,包括答疑提效、人员培养和成本管理等职责

我们正在招聘运维开发工程师,负责阿里云大数据&AI平台的售后智能答疑体系和客户体感稳定性体系建设,从用户服务专家的视角来处理超大规模大数据平台承载的用户问题和重保需求,持续提升运维效率,为产品稳定性和服务口碑树立持续贡献力量 该岗位以大数据&AI产品售后答疑工作为业务基础,一方面深度参与共建Agent架构下的智能答疑能力,围绕问题自助答疑、自助诊断和产品改进项提炼等核心场景进行自动化能力建设;另一方面深度参与客户体感稳定性体系和重保能力建设,在对产品架构和稳定性场景深入掌握的基础上,提炼客户实例级稳定性指标,为客户提供更前置的主动隐患发现与重保服务能力 你将与TAM、研发、SRE、平台工程、算法和产品团队协作,推动传统答疑和排查能力向智能化演进,支撑阿里云大数据&AI平台业务高速发展,共建业界一流的智能服务专家团队 工作职责: 1. 负责阿里云大数据&AI产品的售后L3答疑和服务工作,承接前方服务团队的升级工单处理和用户疑难问题排查;组织和提供大客户钉群服务能力,对头部/重要客户进行业务保障;接收客户需求提供业务巡检、大促护航、产品改进推动等重保能力交付 2. 参与基于Agent的智能答疑体系建设,结合大模型、RAG、Skills、Harness engineer等技术能力,落地根因定位、异常检测、SOP执行和运维问答等AI化运维能力 3. 参与客户体感稳定性系统建设,协同产研SRE建立实例级可用率指标,定义客户级体感可用率标准,构建细粒度封网、变更后置、主动巡检和风险发现预防等重保能力,推动客户问题发现与主动服务链路落地,为产品提供更强的增值能力 4. 负责售后支持外包团队的管理,包括答疑提效、人员培养和成本管理等职责