阿里云阿里云智能-网络运维专家-杭州
任职要求
● 工作经验: ○ 5年以上网络运维工作经验,具备大型互联网或网元开发经验相关背景优先。 ○ 在类似环境中,具有5年以上的云基础设施网络运营经验 (包括虚拟网络或物理网络) ● 技术技能: ○ 精通TCP/IP、BGP、MPLS 等协议,熟悉大规模IDC及骨干网络架构。 ○ 熟悉至少一个云厂商虚拟网络底层转发原理和架构实现; ○ 精通至少一种编程语言(C,C++,Python,Go 等),计算机理论基础扎实,熟练掌握常用的代码库,研发框架。 ○ 熟悉常见的网络和应用协议(OSI模型、交换、路由、TCP/IP、ACL、NAT、QoS、TLS/SSL、HTTP/HTTPS、负载均衡、DNS等)。 ○ 理解Linux/UNIX系统,具备网络安全知识,熟悉Ddos攻击检测与防护原理。 ● 软技能: ○ 具备良好的客户服务意识,思维缜密,逻辑性强,具有挑战精神和前瞻性。 ○ 良好的团队协作精神,善于将日常运维中发现的问题总结沉淀为运维经验,并应用于运维平台的能力建设中。 ○ 具备出色的沟通、表达能力和较高的文档撰写水平,能够独立分析和解决问题,并提出创新的解决思路和方案。
工作职责
● 网络稳定性管理:梳理和管控阿里云网络的线上稳定性风险,稳定性建设以及性能优化,包括线上问题处理,问题诊断,确保线上系统的安全可靠,提升产品的稳定性和性能,降低网络风险,提升应急响应处置效率。 ● 自动化运维开发:开发和维护路由器/交换机/虚拟网络等网络设备及软件的自动化能力,;落地网络稳定性相关的运维效能提升。 ● 新技术验证与优化:参与新架构、新产品结合测试和运营要求的工作,归纳总结形成有效的SOP,并集成到监管控相关维护系统中。 ● 变更风控与效能提升:变更风控能力建设,持续提升大规模安全高效变更工程化效能,保障变更稳定性和效率,设计和适配开发自动化变更场景。
1、运维可观测链路建设 • 对稳定性有全局化的思考能够制定稳定性方案并落地; • 事前:建立并持续优化应用运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化应用运维的预警机制,确保故障能够被快速发现、快速定位、快速处置; • 事后:快速分析、诊断、定位问题,并能够协同相关人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保业务稳定运行;通过稳定性治理专项、架构优化等排除潜在风险。 2、稳定性运维平台建设 • 设计、研发并维护可靠的运维平台、工具,如巡检系统、水位系统、交付系统、成本管理系统等,帮助解决生产系统遇到的交付、性能、稳定性、成本等问题,保障业务持续可用,提升性能与效率; • 负责运维质量数据化分析工作,通过对日常运维指标、问题、风险进行分析和研究,建立模型,给出运维优化建议; 3、应用运维规范标准建设 • 建设应用运维流程规范以及标准化(如变更标准、重保方案、云产品配置标准等),确保运维的规范性和标准化,提升运维稳定性; • 制定应用运维的故障应急处置规范标准; • 制定应用运维的报警处置规范标准以及SLA; • 制定应用运维的成本把控规范以及考核标准。 4、资源调优 • 基于业务需求规划,进行预算编制、容量规划与准备,协调研发进行存储、计算等资源消耗的预测与估算; • 分析业务需求,在确保稳定性的前提下,结合水位和规格以及计费规则等,并把控技术方案中资源估算合理性,协同研发降低资源成本。 5、安全保障建设 • 7*24应急响应,日常监控报警和应急处置并对存在的问题持续发现并整改; • 负责重大节点(如国庆、春节、元旦)的运维保障工作; • 应急预案的制定及演练、应急响应和故障处理等事项; • 建立问题/故障记录库,对记录库进行针对性分析,补齐并优化应急预案库和规范流程库; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升系统的安全性。 6、架构升级 • 负责系统架构升级,如内核升级、网络架构升级、服务跨机房迁移、容器化改造等; • 持续挖掘云产品的功能以及使用能力结合业务需求场景进行优化; • 负责容灾架构设计并实施,如同城容灾、异地多活等。
1. 负责数据中心AI高性能网络、虚拟网络技术的规划、架构设计、以及交付建设、日常稳定性保障、性能优化提升等工作 2. 负责数据中心网络设备及四层设备系统的架构设计及运行保障。 3. 参于搭建网络建设、运维自动化体系,推进网络运维标准化、平台化、自动化能力提升。 4. 参于网络稳定性风险梳理、持续完善变更机制规范、网络故障应急等,持续降低网络运行风险。
1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)