logo of aliyun

阿里云阿里云智能-稳定性技术专家-杭州

社招全职4年以上云智能集团地点:杭州状态:招聘

任职要求


• 4年以上工作经验,至少2年大型分布式系统或云计算重要领域的架构及研发经验。
• 能够梳理、设计大型系统的架构,通过治理、改进、重构等方式主动降低全局复杂度,具体体现在对于困难问题,能够提出并落地简单的易于维护的解决方案。
• 能够合理地对于 1-2 年的系统演进和技术选型做出决策,能够识别技术复用的机会,在项目中复用团队内外部的技术,或者产出能被其他团队复用的技术。
• 有站在公司角度上的全局意识(或)技术产生业务增值。
• 能够主导核心业务或技术系统的架构设计和实际编码,通过对代码的code review、设计评审、单测覆盖,确保功能的交付质量和鲁棒性,有较强的问题分析和问题解决能力,是关键问题终结者。
• 在稳定性、安全、性能、成本等方面能够系统性保障,并持续跟进进展,有效预判并防范风险。
• 能识别产品现状问题,并分解为多个可管理的小问题,更好地指导技术团队工作。
• 能平衡各相关方诉求,平衡产品及架构的长、短期需要,推动关键领域问题解决。
• 产品线研发安全生产构建者。
• 能够在多产品/小型产品线/中型复杂系统层面严格遵循研发安全生产规范和流程,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢。
• 熟练掌握业内主流的研发安全生产技术体系,并在团队内有效落地应用,提升产品/技术/系统的安全和稳定性。
• 具有跨产品、中型复杂系统的研发安全生产经验,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地。
• 在所负责团队层面严格遵循安全稳定演练体系,通过容灾演练、红蓝对抗、突袭演练等方式提前发现系统风险,基于稳定性演练持续培养技术团队的研发安全生产意识和专业能力。
• 了解产品基本面,熟悉产品的全链路,能有效说明产品的本质。
• 熟悉技术领域相关的前沿信息渠道,并能在团队中进行技术分享。
• 熟悉竞对和对标产品的核心技术指标、优劣势对比,对我们如何追赶和保持优势有一定的理解。
• 通过内外部渠道理解客户诉求,并能结合自己的技术理解形成有价值的洞见。

工作职责


部门介绍:
云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供卓越的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。云智能集团稳定性团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。云智能集团稳定性团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于:
1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系。
2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛。
3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单。
4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进。
5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障。
6.该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

岗位职责:
1、技术洞察和问题定义
•洞察领域发展方向,熟悉技术标准和前沿进展,跟踪关键竞对的技术和方法。
•结合产品现状提出待解决的问题,理解业务目标并分解到技术产品待解决问题中。
2、架构规划
•对所在领域业务进行架构抽象,建立整体业务领域模型。
•制定系统整体架构规划和技术路线图,确定系统目标和方向,综合考虑应用架构、数据架构、关键技术选型、部署架构等多方面因素,确保系统整体质量。
3、架构设计
•设计架构方案,包括系统组件、模块间的关系、接口、数据流和数据结构、基础设施等,保障系统的安全性、稳定性、易扩展、易维护和性能。
•把握业务全链路技术方案设计,确保技术可实现性、易用性,无重大风险。
•拆解工作,把复杂目标拆成一系列可以落到具体团队或个人的工作。
4、架构落地
•识别优先级、明确目标步骤和应急方案,保障架构实施落地和用户体验。
•梳理关键技术难点,指导开发团队进行突破和攻关,对开发过程进行监督和管理。
•负责部分核心代码编写,虚实结合,做好架构管理。
5、架构治理和演进
•制定架构的原则、规范与治理机制,并且落实到具体的项目研发中。
•负责架构管控,参与领域的重大架构决策,管控架构变更。
•识别不合理业务和架构设计,定期评估架构成熟度。
•基于业务需求和技术演进目标,指导开发团队对系统进行优化和扩展、解决技术债务,推动架构持续演进。
6、技术沉淀和赋能
•团队技术架构分享、技术文档和架构规范沉淀、学习引入新技术,赋能开发团队的技术成长,做好知识传承。
包括英文材料
分布式系统+
系统设计+
Code review+
相关职位

logo of aliyun
社招5年以上云智能集团

部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供领先的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。 云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。 云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于: 1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系 2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛 3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单 4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进 5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障 岗位职责: 1. 管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。 2. 负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。 3. 主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。 4. 结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。 5. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验

更新于 2025-07-10
logo of aliyun
社招5年以上技术类-开发

1. 阿里云安全容器稳定性技术专家,负责构建安全容器线上稳定性能力,保障专属云等智算场景安全容器稳定性 2. 负责安全容器监控、诊断以及告警后端开发,保障阿里云安全容器pod、节点、网络和存储的高可用性 3. 负责利用数据科学、机器学习等技术优化运维流程,提升稳定性运维的自动化智能化水平和效率

更新于 2025-06-19
logo of aliyun
社招5年以上云智能集团

你将在以下三个领域: 1. 大型分布式系统软件的高可用性设计开发,自动化故障分析定位能力建设; 2. 高带宽高性能交换路由转发平面的定义、研发、测试和创新; 3. 大规模分布式路由协议的研发、测试和创新。 从事以下工作: 1、技术方案设计 • 收集、识别、分析网络架构和运维侧需求,并确定技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。 5、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-25
logo of aliyun
社招5年以上技术类-开发

1、技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议 5、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地

更新于 2025-06-19