阿里云阿里云智能-网络自动化开发专家-杭州/北京
任职要求
• 3年以上云计算领域开发经验,精通Java或Go开发语言,熟悉缓存、分布式架构、消息中间件、web开发等常用核心技术和框架 • 精通工作中使用的技术栈,在设计、架构、并发、分布式、数据等一个或多个技术领域达到专家水平,能够识别并准确解决问题 • 能够在中型复杂系统层面推动建立完善的研发安全生产体系,并推动落地,保障相关系统的可容灾、可观测、可处置、可运维、可快恢 • 具备从业务需求、研发、管理、测试、部署、运维全链路的流程和水位有清晰的认证和持续改进能力 • 能主导核心业务或技术系统架构设计和实际编码,通过对代码的code review、设计评审、单测覆盖,确保功能的交付质量和鲁棒性,有较强的问题分析和问题解决能力 • 能够独立地进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作 • 具备Kubernetes (K8s) 的基…
工作职责
1、技术方案设计 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地
1. 针对ECS异常调度“运维决策大脑”,设计多维的异常调度可验证体系,通过融合存储、心跳、网络状态等多路信号,从根本上解决因单一信号误判导致的业务中断风险,确保自动化决策的精准性; 2. 针对ECS海量线上数据和全链路性能问题,设计和开发创新的测试解决方案与平台,建立精准、高效的性能和稳定性度量体系; 3. 面向失败的可验证性设计,验证系统的韧性架构,尤其针对规模性故障(机房、核心系统依赖),推动核心组件的降级、熔断、故障恢复能力,通过故障注入等方式验证系统的鲁棒性; 4. 作为产品线研发安全生产的构建者,负责在多产品/复杂系统层面构建并落地完善的研发安全生产规范和流程,保障系统的可容灾、可观测、可处置、可运维、可快速恢复; 5. 主导跨产品、大型复杂系统的质量保障工作,组织和推动高水准的稳定性演练(如容灾、红蓝对抗),培养团队的研发安全生产意识和专业能力; 6. 对AIOps/SRE及质量保障领域的技术发展趋势有前瞻性判断,负责测试技术预研、技术难点攻关,推动技术变革与创新,为产品线带来显著收益。
作为网络自动化研发专家,你会负责设计和开发支持阿里云业务的网络解决方案和相关自动化运维工具,基于分布式架构、大数据处理、SDN等先进技术,驱动下一代大规模网络基础设施的自动化运维和管理,如监控告警、故障定位、应急快恢、自动化变更、质量优化等。 具体岗位职责包括: 1、技术方案设计 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地
阿里云天基集群管理团队,负责阿里云天基平台的开发,是阿里云四大基础平台之一。公共云天基服务承载着飞天操作系统中基础计算、存储、网络组件的生命周期管理以及硬件自动化运维体系,管理着百万级服务器及千万级应用实例,高可靠、自动化、智能化是天基平台一直以来的目标。 核心职责 1. 主导 IaaS 自动化运维平台的核心模块设计与开发,包括自愈系统架构设计及优化,大规模场景下服务器及应用全生命周期管理; 2. 推动 IaC、运行时参数分离等方式完成“不可变基础设施”理念的落地; 3. 设计并实现高可用、可水平扩展的分布式 Git 对象存储系统; 4. 探索通过 AIOps 提高 IaaS 场景下异常检测、根因分析、自愈决策等能力;
1、负责建设边缘云的持续运维能力; • 事前:建立并持续优化系统运维的预警机制,进行稳定性风险的分析与管控,前置梳理风险漏洞,降低风险/故障的发生率; • 事中:建立并持续优化系统运维的监控机制,快速发现、通报、定位及处理疑难故障; • 事后:针对疑难故障,能够快速分析、诊断、定位问题,协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、智能化/自动化运营能力建设 • 负责智能化/自动化的运维场工具能力落地开发,编写自动化运维脚本,帮助解决生产系统遇到的容量、性能、稳定性等问题,推进网络自动化运维能力建设; • 负责精细化数据运营,通过对日常运维指标、问题、风险进行分析和研究,建立模型、计算ROI/TCO解决问题,跟踪改进优化措施落地,保证可持续运营; • 负责高可用保障体系建设,如故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 3、负责维护海内外的边缘云基础设施网络; • 全球全球骨干网、城域网、数据中心网络、光网络巡检维护以及故障定位和恢复 • 全球互联网稳定性和质量运营,负责互联网终端用户、云厂商到阿里云互联互通质量相关的售前、售后的技术服务支持和以及质量优化所需改造优化工作 • 全球网络运营风险管理,负责网络生命周期的风险识别、规避控制和消除,涉及架构引入测试、验收、风险防范,确保网络服务满足稳定性需求。 • 互联链路质量运营,负责网络设备光模块/AOC/DAC线缆的产品引入、质量控制、线上运营、链路故障维修支持和能力建设。 4、运营架构落地&质量优化体系建设 • 网络运维高可用标准制定、研发测试、准入测试,包括新架构引入、架构HLD、LLD讨论、运营标准制定、研发测试、准入测试。 • 制定与优化本领域内的相关新产品\新功能的的SLA协议承诺,并基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 积累网络运维最佳实践,输出运维技术文档、知识库建设等。 5、基础网络运营生命周期优化保障 • 全球网络资源建设、标准化服务开通,自动化交付能力建设&优化&提效,确保高质量网络资源交付履约;保证业务增长需求; • 全球网络变更方案全生命周期自动化体系架构设计、技术演进改造变更实施相关业务流程、风控策略制定并落地,优化工程方案制定及自动化能力开发,完成变更方案业务逻辑在自动化体系中的编排、落地、维护,并负责变更场景常态化运营前的测试、灰度,以及变更执行和过程中的异常处理; • 全球网络裁撤体系流程设计、方案制定,自动化落地;对接、协调其它专业团队完成网络裁撤前的准备,并负责裁撤变更执行的跟踪,处理变更执行过程中的异常,保证网络资源安全高效下线。 加分项 1.有传输系统维护经验,熟悉常见的传输组网模式、备份模式;能够对传输常见问题熟练应对; 2.熟悉CDN系统,对常见的CDN调度模式熟练掌握、掌握HTTP基本知识; 3.熟练的英语能力,能够用英语同运营商进行故障申报、问题讨论、方案沟通;