阿里云阿里云智能-网络运维专家-杭州
任职要求
● 工作经验: ○ 5年以上网络运维工作经验,具备大型互联网或网元开发经验相关背景优先。 ○ 在类似环境中,具有5年以上的云基础设施网络运营经验 (包括虚拟网络或物理网络) ● 技术技能: ○ 精通TCP/IP、BGP、MPLS 等协议,熟悉大规模IDC及骨干网络架构。 ○ 熟悉至少一个云厂商虚拟网络底层转发原理和架构实现; ○ 精通至少一种编程语言(C,C++,Python,Go 等),计算机理论基础扎实,熟练掌握常用的代码库,研发框架。 ○ 熟悉常见的网络和应用协议(OSI模…
工作职责
● 网络稳定性管理:梳理和管控阿里云网络的线上稳定性风险,稳定性建设以及性能优化,包括线上问题处理,问题诊断,确保线上系统的安全可靠,提升产品的稳定性和性能,降低网络风险,提升应急响应处置效率。 ● 自动化运维开发:开发和维护路由器/交换机/虚拟网络等网络设备及软件的自动化能力,;落地网络稳定性相关的运维效能提升。 ● 新技术验证与优化:参与新架构、新产品结合测试和运营要求的工作,归纳总结形成有效的SOP,并集成到监管控相关维护系统中。 ● 变更风控与效能提升:变更风控能力建设,持续提升大规模安全高效变更工程化效能,保障变更稳定性和效率,设计和适配开发自动化变更场景。
1、负责阿里巴巴数据中心IT运营管理工作,负责服务器/网络运维和IT交付管理,参与数据中心的建设与扩容,确保业务稳定运行,在运维质量、效率、成本与安全之间取得平衡。 2、制定、记录并监督执行符合行业最佳实践及满足SLA要求的各项政策与流程。 3、协调外部供应商,确保资源供应与交付及时到位,匹配业务增长需求。 4、负责托管数据中心服务提供商的外包与供应商管理,确保其服务表现达到或超过合同约定的SLA标准。 5、熟悉7×24小时现场支持流程,持续优化运营流程、方法与工具。 6、负责优化数据中心IT运维工作,制定运维管理体系、标准操作规程(SOP)和应急操作规程(EOP)。 7、负责业务设备的现场技术支持,理解业务需求与网络架构,通过团队协作高效支撑数据中心运营。

1、负责阿里巴巴数据中心IT运营管理工作,负责服务器/网络运维和IT交付管理,参与数据中心的建设与扩容,确保业务稳定运行,在运维质量、效率、成本与安全之间取得平衡。 2、制定、记录并监督执行符合行业最佳实践及满足SLA要求的各项政策与流程。 3、协调外部供应商,确保资源供应与交付及时到位,匹配业务增长需求。 4、负责托管数据中心服务提供商的外包与供应商管理,确保其服务表现达到或超过合同约定的SLA标准。 5、熟悉7×24小时现场支持流程,持续优化运营流程、方法与工具。 6、负责优化数据中心IT运维工作,制定运维管理体系、标准操作规程(SOP)和应急操作规程(EOP)。 7、负责业务设备的现场技术支持,理解业务需求与网络架构,通过团队协作高效支撑数据中心运营。
1、负责建设边缘云的持续运维能力; • 事前:建立并持续优化系统运维的预警机制,进行稳定性风险的分析与管控,前置梳理风险漏洞,降低风险/故障的发生率; • 事中:建立并持续优化系统运维的监控机制,快速发现、通报、定位及处理疑难故障; • 事后:针对疑难故障,能够快速分析、诊断、定位问题,协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、智能化/自动化运营能力建设 • 负责智能化/自动化的运维场工具能力落地开发,编写自动化运维脚本,帮助解决生产系统遇到的容量、性能、稳定性等问题,推进网络自动化运维能力建设; • 负责精细化数据运营,通过对日常运维指标、问题、风险进行分析和研究,建立模型、计算ROI/TCO解决问题,跟踪改进优化措施落地,保证可持续运营; • 负责高可用保障体系建设,如故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 3、负责维护海内外的边缘云基础设施网络; • 全球全球骨干网、城域网、数据中心网络、光网络巡检维护以及故障定位和恢复 • 全球互联网稳定性和质量运营,负责互联网终端用户、云厂商到阿里云互联互通质量相关的售前、售后的技术服务支持和以及质量优化所需改造优化工作 • 全球网络运营风险管理,负责网络生命周期的风险识别、规避控制和消除,涉及架构引入测试、验收、风险防范,确保网络服务满足稳定性需求。 • 互联链路质量运营,负责网络设备光模块/AOC/DAC线缆的产品引入、质量控制、线上运营、链路故障维修支持和能力建设。 4、运营架构落地&质量优化体系建设 • 网络运维高可用标准制定、研发测试、准入测试,包括新架构引入、架构HLD、LLD讨论、运营标准制定、研发测试、准入测试。 • 制定与优化本领域内的相关新产品\新功能的的SLA协议承诺,并基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 积累网络运维最佳实践,输出运维技术文档、知识库建设等。 5、基础网络运营生命周期优化保障 • 全球网络资源建设、标准化服务开通,自动化交付能力建设&优化&提效,确保高质量网络资源交付履约;保证业务增长需求; • 全球网络变更方案全生命周期自动化体系架构设计、技术演进改造变更实施相关业务流程、风控策略制定并落地,优化工程方案制定及自动化能力开发,完成变更方案业务逻辑在自动化体系中的编排、落地、维护,并负责变更场景常态化运营前的测试、灰度,以及变更执行和过程中的异常处理; • 全球网络裁撤体系流程设计、方案制定,自动化落地;对接、协调其它专业团队完成网络裁撤前的准备,并负责裁撤变更执行的跟踪,处理变更执行过程中的异常,保证网络资源安全高效下线。 加分项 1.有传输系统维护经验,熟悉常见的传输组网模式、备份模式;能够对传输常见问题熟练应对; 2.熟悉CDN系统,对常见的CDN调度模式熟练掌握、掌握HTTP基本知识; 3.熟练的英语能力,能够用英语同运营商进行故障申报、问题讨论、方案沟通;

1、负责建设边缘云的持续运维能力; • 事前:建立并持续优化系统运维的预警机制,进行稳定性风险的分析与管控,前置梳理风险漏洞,降低风险/故障的发生率; • 事中:建立并持续优化系统运维的监控机制,快速发现、通报、定位及处理疑难故障; • 事后:针对疑难故障,能够快速分析、诊断、定位问题,协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、智能化/自动化运营能力建设 • 负责智能化/自动化的运维场工具能力落地开发,编写自动化运维脚本,帮助解决生产系统遇到的容量、性能、稳定性等问题,推进网络自动化运维能力建设; • 负责精细化数据运营,通过对日常运维指标、问题、风险进行分析和研究,建立模型、计算ROI/TCO解决问题,跟踪改进优化措施落地,保证可持续运营; • 负责高可用保障体系建设,如故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 3、负责维护海内外的边缘云基础设施网络; • 全球全球骨干网、城域网、数据中心网络、光网络巡检维护以及故障定位和恢复 • 全球互联网稳定性和质量运营,负责互联网终端用户、云厂商到阿里云互联互通质量相关的售前、售后的技术服务支持和以及质量优化所需改造优化工作 • 全球网络运营风险管理,负责网络生命周期的风险识别、规避控制和消除,涉及架构引入测试、验收、风险防范,确保网络服务满足稳定性需求。 • 互联链路质量运营,负责网络设备光模块/AOC/DAC线缆的产品引入、质量控制、线上运营、链路故障维修支持和能力建设。 4、运营架构落地&质量优化体系建设 • 网络运维高可用标准制定、研发测试、准入测试,包括新架构引入、架构HLD、LLD讨论、运营标准制定、研发测试、准入测试。 • 制定与优化本领域内的相关新产品\新功能的的SLA协议承诺,并基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 积累网络运维最佳实践,输出运维技术文档、知识库建设等。 5、基础网络运营生命周期优化保障 • 全球网络资源建设、标准化服务开通,自动化交付能力建设&优化&提效,确保高质量网络资源交付履约;保证业务增长需求; • 全球网络变更方案全生命周期自动化体系架构设计、技术演进改造变更实施相关业务流程、风控策略制定并落地,优化工程方案制定及自动化能力开发,完成变更方案业务逻辑在自动化体系中的编排、落地、维护,并负责变更场景常态化运营前的测试、灰度,以及变更执行和过程中的异常处理; • 全球网络裁撤体系流程设计、方案制定,自动化落地;对接、协调其它专业团队完成网络裁撤前的准备,并负责裁撤变更执行的跟踪,处理变更执行过程中的异常,保证网络资源安全高效下线。 加分项 1.有传输系统维护经验,熟悉常见的传输组网模式、备份模式;能够对传输常见问题熟练应对; 2.熟悉CDN系统,对常见的CDN调度模式熟练掌握、掌握HTTP基本知识; 3.熟练的英语能力,能够用英语同运营商进行故障申报、问题讨论、方案沟通;