阿里云阿里云智能-运维专家-云平台运维
任职要求
1)3年以上K8S/主流大数据引擎的运维经验,熟悉分布式系统原理及Linux原理,如有AI IaaS&PaaS平台/GPU集群运维开发经验是加分项 2)熟悉Golang/Python/Java至少一门编程语言,有运维平台开发建设经验,如有AIOps智能运维经验是加分项 3)要具备稳定性安全生产落地实战经验,包括高可用架构、可观测性&监控、异常处置、SLA&可用率、节点自愈等 4)有良好沟通及项目推动协作能力,做事严谨仔细、具备较好韧性
工作职责
1)负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2)研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3)落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4)负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议,使客户的IT架构、性能等层面得到更好的优化与提升,制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀,出具技术方案并推动相关产品团队解决落地,同时赋能一线运维团队自运维能力; 3、负责产品巡检工具与问题诊断分析工具开发,提升客户云平台的预警与异常自发现能力,提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战,提供技术底盘及业务能力支持。 5、完成核心技术攻关,识别和解决潜在的技术风险
1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)
1.负责虚拟化Hypervisor运维平台的架构设计、技术选型与核心功能开发。 2.主导虚拟化资源池的部署、优化与持续运维,保障高可用、高性能及可扩展性。 3.参与云平台与虚拟化层的深度集成,推动自动化部署、热迁移、热升级、变更等核心功能落地。 4.负责虚拟化相关问题的根因分析与性能调优,解决大规模实例运行中的稳定性与性能瓶颈。 5.设计并实施虚拟化相关质量保障体系,包括自动化测试框架、回归测试流程和故障注入演练。 6.协同管控、网络、存储、安全等团队完成虚拟化Hypervisor层的安全加固、合规改造与运维/质量标准化建设。
标准化运维 • 通过风险治理、产品变更升级、故障应急等来维护客户云平台的稳定性 • 通过不断的资源与性能优化,帮助客户持续提升用云效率 • 以用户视角推动云产品运维能力可支持性持续提升,降低云平台运维难度 标准化交付(混合云) • 负责项目集成方案制定与标准化交付实施,识别和屏蔽实施前技术风险 • 负责制定云计算、大数据、AI等产品的可交付性标准、数据中心体系的质量建设与标准输出,持续提升产品的可服务性和质量,负责建立知识库、交付工具、交付流程优化及方法论; • 建设和培养生态可交付能力,帮助客户实现最终业务价值 标准化迁云 帮助客户业务迁移上云、用好数,为客户提供应用/大数据架构设计、数据库国产化,应用/大数据性能调优,数据治理以及数据中台建设等技术服务,提供云上产品在行业应用的最佳实践和解决方案。 技术支持 • 作为主要联系人,解决客户在使用阿里云服务过程中遇到的技术问题,通过风险治理、产品变更升级、故障应急等来维护客户云平台的稳定性 • 向客户提供最佳实践、指导和培训,帮助他们充分利用阿里云的功能和服务 • 向客户提供全方位的云技术支持、成本优化、成熟评估与咨询、合规与安全加固等服务,以提升客户的云上业务效率和可靠性 技术咨询和规划 作为技术专家,理解客户的IT战略和方向,结合云产品为客户提供深入的技术咨询、架构建议、产品选型等服务相关解决方案,成为客户数字化转型的长期伙伴 云上优化 • 通过对业务需求的深入理解,搭建和优化系统架构、建设业务容灾能力、设计和实施监控系统,引导日常容灾演练,以提高云上业务的稳定性和可靠性,保证高并发下的系统性能和响应速度 • 实现智能监控和预警,提升客户的业务效率和用户体验,并优化基础架构和应用程序 客情建设和商机拓展 识别客户关键决策人,用客户的语言展开对话,获取客户信任,挖掘产品和技术需求,形成有效商机并进行履约