阿里云阿里云智能-网络运营优化专家-杭州
任职要求
1、5年以上互联网企业、运营商或计算机网络专业相关背景,具有丰富的网络改造优化、复杂工程落地经验尤佳
2、精通TCP/IP、BGP、ISIS、MPLS VPN/SRTE等协议,熟悉大规模骨干网络架构,熟悉国内外主流运营商网络结构,了解运营商内部策略,主导和经历过广域网建设和改造、互联网互联互通优化为佳
3、具…工作职责
阿里云智能基础架构事业部(Alibaba Infrastructure Service group)负责整个阿里巴巴基础设施的研发,建设和运维。我们是阿里巴巴云计算和大数据技术的核心技术输出者,在包括数据中心,存储,网络,计算和运营等方面为云计算和大数据提供技术能力和驱动力,让中国互联网用户能够使用全球顶尖的技术,享受稳定高效的一流数字基础设施。 网络是基础设施中至关重要的一部分。互联网业务的爆炸性增长,移动第一的需求和公有云服务的起飞都给网络带来了前所未有的挑战。为了更好的应对这些挑战,网络研发团队坚持software defined network的理念,利用业界的新软硬件技术,开发网络系统为阿里巴巴业务提供强有力的支撑。 网络运营团队负责阿里巴巴整体网络规划、建设、运营,致力于极致稳定、极致体验的可预期网络的打造与运营,期待志同道合的您加入我们,通过您的技能和特长一起同我们脚踏实地的为可预期网络落地做出贡献和见证历史。职位主要工作内容: 1、根据业务发展需求,负责阿里集团网络优化改造、制定网络优化方案、推动工程项目落地 2、基于变更场景梳理和规范化,结合平台能力可独立完成相关场景变更优化方案的自动化 3、有较好的沟通能力,具备协同厂商等合作伙伴快速推动设备软硬件升级等计划性工作落地 4、善于结合团队工作内容和数据深度分析举一反三,具备新技术架构LLD审核能力,基于新架构设计结合现有网络情况,具备识别风险与控制技术来规避演进过程中的变更风险,使架构方案平稳落地 5、协助管理好网络团队改造优化项目规划、归档、复盘等优化变更相关运营工作
1、网络资源交付管理 •理解内外部客户、产品运营等各方需求,资源的需求承接可行性分析,资源策略,规格定制,准入验证,以及生产,部署,上线的护航保障 ,在保障齐套交付的基础上,同时负责协调项目系统流程处理,交付结果系统同步; •负责交付结果指标,云资源/物理资源齐套交付,针对资源交付与齐套过程中的供需异常、生产与交付风险,及时组织相关团队协同,吹哨升级重大风险,跟踪闭环,支撑面向交付的供应资源齐套方案 •负责复杂交付场景(涉及多个交付场景,像新开服、CPAAS客户场景化交付等)的整体端到端交付; •交付业务流程中的相关环节的运营:供应链方案、SOW下发、预检测、资源上下线方案、资源结构方案、资源调度策略实施、资源利用率优化等; •负责业务运营过程的指标管理(如SLA管理,交付质量管理),以及相关事件的分析、复盘持续迭代; •资源调用链路等故障处理、分析,指导现场定位问题,以及相关事件的分析、复盘持续迭代 •监控交付SLA库存健康度,输出优化策略,牵引交付模式优化和能力建设,提升交付效率,结合计划迭代优化库存配置,降低呆滞风险 2、网络资源交付能力运营 •负责云资源/物理资源交付涉及的业务流程的优化迭代,适配新需求、新场景的落地,不断的提升交付竞争力; •负责落实云资源/物理资源的交付效率、交付质量和交付成本运营能力的构建,落实资源调度策略、系统能力和运营规则,并按期持续运营; •负责云资源/物理资源的外包管理和能力建设,构成持续稳定的交付; •负责云资源/物理资源的新产品NPI交付方案制定,落地和改进优化,持续提升新产品交付能力 。 3、网络资源成本管控 • 建设资源成本映射模型,客观、准确度量及监控资源全生命周期内的成本表现,从云资源/物理资源视角或产品视角构建资源、成本、效能、部署等系统平台,基于平台动态的监控资源成本异常,挖掘资源成本优化方向 •协同上下游部门,驱动从技术降成本、运营降成本、资源降成本等维度,持续运营和降低产品单位可售卖成本; •负责监控交付成本,针对异常项目或紧急需求,落实成本显性呈现和责任归属; 4、提升资源利用率 • 建设客观、准确的资源利用率模型,围绕采买/持有的各类资产、服务等资源,通过资源预测与预警、库存管理、采购策略优化、运营优化、技术迭代等方式提升资源利用率 • 建设单位资源效益测算模型,客观、准确度量及监控资源全生命周期内的效益表现,构建资源效益运营平台
● 网络稳定性管理:梳理和管控阿里云网络的线上稳定性风险,稳定性建设以及性能优化,包括线上问题处理,问题诊断,确保线上系统的安全可靠,提升产品的稳定性和性能,降低网络风险,提升应急响应处置效率。 ● 自动化运维开发:开发和维护路由器/交换机/虚拟网络等网络设备及软件的自动化能力,;落地网络稳定性相关的运维效能提升。 ● 新技术验证与优化:参与新架构、新产品结合测试和运营要求的工作,归纳总结形成有效的SOP,并集成到监管控相关维护系统中。 ● 变更风控与效能提升:变更风控能力建设,持续提升大规模安全高效变更工程化效能,保障变更稳定性和效率,设计和适配开发自动化变更场景。
• 负责城域网、数据中心光网络的新建和扩容,对工程项目的进展和验收负责; • 负责城域网、数据中心光网络的日常优化工作,提升网络稳定性、可用率; • 负责光网络设备产品引入测试、质量控制,提前构建高效的建设交付和日常优化能力; • 负责高可用的光互联网络规划、建设交付和运营平台; • 负责网络运营自动化脚本编写,推进网络的自动化建设、优化和运维能力; • 通过数据分析和研究,提前识别网络架构风险、设备软硬件风险、系统平台风险,规避系统性风险。
1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)