阿里云诚云科技-资深应用运维工程师-计算平台-(PAI)
任职要求
1、5年以上K8S/主流大数据引擎的运维经验,熟悉分布式系统原理及Linux原理,如有AI IaaS&PaaS平台/GPU集群运维开发经验是加分项 2、熟悉Golang/Python/Java至少一门编程语言,有运维平…
工作职责
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
滴滴国际化Fintech业务,是滴滴国际化战略的重要组成板块。近年来,滴滴Fintech在拉美地区积极探索和开展电子支付、信贷、信用卡、商户收单等业务,为当地用户带来更便捷、优质、更高性价比的金融服务。我们诚挚邀请真诚、可靠、勇于挑战的您和我们一起,携手并肩,拥抱金融出海的浪潮,和滴滴Fintech一起快速成长。 1. 负责金融业务会员领域的系统设计和研发工作,包括但不限于核心业务、运营支撑等领域,为研发质量和系统稳定性负责。 2. 有机会主导并深度参与多个0-1、或1-100的关键项目建设,参与系统规划、讨论,共同打造业界领先的支付、金融平台。 3. 有机会学习并理解金融行业知识,了解海外的支付和金融市场,成为有国际化视野的技术专家。 4. base地:上海/杭州/北京
滴滴国际化Fintech业务,是滴滴国际化战略的重要组成板块。近年来,滴滴Fintech在拉美地区积极探索和开展电子支付、信贷、信用卡、商户收单等业务,为当地用户带来更便捷、优质、更高性价比的金融服务。我们诚挚邀请真诚、可靠、勇于挑战的您和我们一起,携手并肩,拥抱金融出海的浪潮,和滴滴Fintech一起快速成长。 1. 负责支付业务会员、额度中心、账单领域的系统设计和研发工作,包括但不限于核心业务、运营支撑等领域,为研发质量和系统稳定性负责。 2. 有机会主导并深度参与多个0-1、或1-100的关键项目建设,参与系统规划、讨论,共同打造业界领先的支付、金融平台。 3. 有机会学习并理解金融行业知识,了解海外的支付和金融市场,成为有国际化视野的技术专家。 4. base地:上海/杭州/北京