阿里云阿里云智能-基础设施裁撤交付专家-杭州
任职要求
1.熟悉数据中心端到端交付流程并具备丰富的云服务供需和交付运营经验 2.熟悉服务器、网络、IDC三大件的生命周期管理专业经验 3.有物理IDC裁撤/网络建设交付/大项目的管理经验,或PMP证书优先 4.具备良…
工作职责
1.负责阿里云内部裁撤项目的物理裁撤,跨团队主导服务器、网络、IDC、资产、财务等诸多合作方,输出物理裁撤方案,并对方案的SLA和可交付性负责。 2.针对阿里云内部裁撤项目的资源储备,向上负责阿里云项目三大件资源的需求对接,向下有效拉通各交付执行链路,对项目资源供应健康度负责。 3.识别裁撤交付项目重点问题和事项,与上下游团队有效对接,高效拉动周边交付、技术团队,牵头协调达成共识,保障项目结果落地。 4.沉淀项目运营方案体系,打造标准方案及自动化能力,及时发现项目问题和机会;根据标准化需求,优化监控体系,推动各个团队能力提升及优化。
1、负责建设边缘云的持续运维能力; • 事前:建立并持续优化系统运维的预警机制,进行稳定性风险的分析与管控,前置梳理风险漏洞,降低风险/故障的发生率; • 事中:建立并持续优化系统运维的监控机制,快速发现、通报、定位及处理疑难故障; • 事后:针对疑难故障,能够快速分析、诊断、定位问题,协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、智能化/自动化运营能力建设 • 负责智能化/自动化的运维场工具能力落地开发,编写自动化运维脚本,帮助解决生产系统遇到的容量、性能、稳定性等问题,推进网络自动化运维能力建设; • 负责精细化数据运营,通过对日常运维指标、问题、风险进行分析和研究,建立模型、计算ROI/TCO解决问题,跟踪改进优化措施落地,保证可持续运营; • 负责高可用保障体系建设,如故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 3、负责维护海内外的边缘云基础设施网络; • 全球全球骨干网、城域网、数据中心网络、光网络巡检维护以及故障定位和恢复 • 全球互联网稳定性和质量运营,负责互联网终端用户、云厂商到阿里云互联互通质量相关的售前、售后的技术服务支持和以及质量优化所需改造优化工作 • 全球网络运营风险管理,负责网络生命周期的风险识别、规避控制和消除,涉及架构引入测试、验收、风险防范,确保网络服务满足稳定性需求。 • 互联链路质量运营,负责网络设备光模块/AOC/DAC线缆的产品引入、质量控制、线上运营、链路故障维修支持和能力建设。 4、运营架构落地&质量优化体系建设 • 网络运维高可用标准制定、研发测试、准入测试,包括新架构引入、架构HLD、LLD讨论、运营标准制定、研发测试、准入测试。 • 制定与优化本领域内的相关新产品\新功能的的SLA协议承诺,并基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 积累网络运维最佳实践,输出运维技术文档、知识库建设等。 5、基础网络运营生命周期优化保障 • 全球网络资源建设、标准化服务开通,自动化交付能力建设&优化&提效,确保高质量网络资源交付履约;保证业务增长需求; • 全球网络变更方案全生命周期自动化体系架构设计、技术演进改造变更实施相关业务流程、风控策略制定并落地,优化工程方案制定及自动化能力开发,完成变更方案业务逻辑在自动化体系中的编排、落地、维护,并负责变更场景常态化运营前的测试、灰度,以及变更执行和过程中的异常处理; • 全球网络裁撤体系流程设计、方案制定,自动化落地;对接、协调其它专业团队完成网络裁撤前的准备,并负责裁撤变更执行的跟踪,处理变更执行过程中的异常,保证网络资源安全高效下线。 加分项 1.有传输系统维护经验,熟悉常见的传输组网模式、备份模式;能够对传输常见问题熟练应对; 2.熟悉CDN系统,对常见的CDN调度模式熟练掌握、掌握HTTP基本知识; 3.熟练的英语能力,能够用英语同运营商进行故障申报、问题讨论、方案沟通;
1、项目立项和规划 • 【资源运营】基于业务及规划对基础设施资源的供应、变更及退役需求,负责项目立项和规划,实现路径和保障机制设计 • 负责协调项目资源,建立良好的沟通机制,推动核心干系人沟通共识,推动问题上升决策和解决 2、项目全过程管理 • 【资源运营】负责IT项目交付,改造,裁撤等,包括但不限于弱电布线、网络部署、服务器部署、基础设施改造等管理工作 • 【服务运营】负责确定IDC全生命周期的成本基线并监控实际成本,推动专业团队精细运营达成成本目标;梳理IDC团队的业务形态,推动相关团队识别及修复影响IDC业务运营的重大风险 • 负责跟进项目质量、进度、风险、成本等,有效控制风险与进度 •负责管理项目交付团队和现场实施,协调内、外部团队 3、项目管理体系建设 • 持续总结项目实践经验,优化项目管理体系及过程改进措施,识别和确定流程、组织等方面的问题,提供流程、工具、方法等方面的支持,提升项目管理效率和质量。
1.收集、识别、分析集团型客户日常用云需求或业务痛点,主导设计有竞争力的解决方案,并端到端拉通产研团队完成方案的落地与交付; 2.参与集团型客户用云日常及大促活动的稳定性保障及风险治理,包括但不限于云底座高可用架构优化、云产品及基础设施可观测、业务容灾演练等; 3.面向集团型客户提供用云关键技术、产品咨询或答疑,定期推介分享新技术及新产品,帮助业务更好的用云; 4.参与新站点建设、资源交付及IDC裁撤等,包括但不限于通算、智算等新机型新规格的三新定义及交付,新region/az建设基线制定,老旧机房裁撤迁移等; 5.识别提炼客户共性需求,反哺产品设计,推动产品改进,或孵化新产品新功能,或沉淀场景化解决方案,提升云产品技术竞争力。