logo of aliyun

阿里云阿里云智能-运维稳定性架构师-杭州/北京

社招全职8年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


• 8年以上工作经验,至少6年大型分布式系统或云计算重要领域的运维架构及开发经验
• 能够梳理、设计大型系统的架构,通过治理、改进、重构等方式主动降低全局复杂度,具体体现在对于困难问题,能够提出并落地简单的易于维护的解决方案。
• 能够合理地对于 1-2 年的系统演进和技术选型做出决策,能够识别技术复用的机会,在项目中复用团队内外部的技术,或者产出能被其他团队复用的技术。
• 有站在公司角度上的全局意识(或)技术产生业务增值。
• 能够主导核心业务或技术系统的架构设计和实际编码,通过对代码的code review、设计评审、单测覆盖,确保功能的交付质量和鲁棒性,有较强的问题分析和问题解决能力,是关键问题终结者
• 在稳定性、资损、安全等方面能够系统性保障,并持续跟进进展,有效预判并防范风险
• 能识别产品现状问题,并分解为多个可管理的小问题,更好地指导技术团队工作。
• 能平衡各相关方诉求,平衡产品及架构的长、短期需要,推动关键领域问题解决。
• 产品线研发安全生产构建者
• 能够在多产品/小型产品线/中型复杂系统层面严格遵循研发安全生产规范和流程,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
• 熟练掌握业内主流的研发安全生产技术体系,并在团队内有效落地应用,提升产品/技术/系统的安全和稳定性
• 具有跨产品、中型复杂系统的研发安全生产经验,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地
• 在所负责团队层面严格遵循安全稳定演练体系,通过容灾演练、红蓝对抗、突袭演练等方式提前发现系统风险,基于稳定性演练持续培养技术团队的研发安全生产意识和专业能力
• 了解产品基本面,熟悉产品的全链路,能有效说明产品的本质。
• 熟悉技术领域相关的前沿信息渠道,并能在团队中进行技术分享。
• 熟悉竞对和对标产品的核心技术指标、优劣势对比,对我们如何追赶和保持优势有一定的理解。
• 通过内外部渠道理解客户诉求,并能结合自己的技术理解形成有价值的洞见。

工作职责


部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供领先的技术解决方案和服务,具备超大业务规模以及最复杂的企业级云计算服务。
云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。
云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于:
1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系
2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛
3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单
4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进
5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障
6.该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验

岗位职责:
1、技术洞察和问题定义
•洞察领域发展方向,熟悉技术标准和前沿进展,跟踪关键竞对的技术和方法。
•结合产品现状提出待解决的问题,理解业务目标并分解到技术产品待解决问题中。
2、架构规划
•对所在领域业务进行架构抽象,建立整体业务领域模型。
•制定系统整体架构规划和技术路线图,确定系统目标和方向,综合考虑应用架构、数据架构、关键技术选型、部署架构等多方面因素,确保系统整体质量。
3、架构设计
•设计架构方案,包括系统组件、模块间的关系、接口、数据流和数据结构、基础设施等,保障系统的安全性、稳定性、易扩展、易维护和性能。
•把握业务全链路技术方案设计,确保技术可实现性、易用性,无重大风险。
•拆解工作,把复杂目标拆成一系列可以落到具体团队或个人的工作。
4、架构落地
•识别优先级、明确目标步骤和应急方案,保障架构实施落地和用户体验。
•梳理关键技术难点,指导开发团队进行突破和攻关,对开发过程进行监督和管理。
•负责部分核心代码编写,虚实结合,做好架构管理。
5、架构治理和演进
•制定架构的原则、规范与治理机制,并且落实到具体的项目研发中。
•负责架构管控,参与领域的重大架构决策,管控架构变更。
•识别不合理业务和架构设计,定期评估架构成熟度。
•基于业务需求和技术演进目标,指导开发团队对系统进行优化和扩展、解决技术债务,推动架构持续演进。
6、技术沉淀和赋能
•团队技术架构分享、技术文档和架构规范沉淀、学习引入新技术,赋能开发团队的技术成长,做好知识传承。
包括英文材料
分布式系统+
系统设计+
相关职位

logo of aliyun
社招6年以上技术类-开发

1、制定稳定性度量机制,对专有云全生命周期进行稳定性管控和持续治理,推动云平台可靠性的系统性提升; 2、建设全链路的风险治理体系,并通过产品能力优化和精细化运营来实现风险点的快速、持续收敛; 3、推动开展稳定性治理重大专项,通过产品化方案解决重点产品和技术领域的稳定性难题; 4、智算系统可靠性建设,推进智算领域稳定性标准设计和配套能力的落地; 5、技术竞争力构建,紧跟竞品关键技术和方法动态,打造有行业竞争力的稳定性能力;

更新于 2025-06-03
logo of aliyun
社招3年以上云智能集团

1、制定稳定性度量机制,对专有云全生命周期进行稳定性管控和持续治理,推动云平台可靠性的系统性提升; 2、建设全链路的风险治理体系,并通过产品能力优化和精细化运营来实现风险点的快速、持续收敛; 3、推动开展稳定性治理重大专项,通过产品化方案解决重点产品和技术领域的稳定性难题; 4、智算系统可靠性建设,推进智算领域稳定性标准设计和配套能力的落地; 5、技术竞争力构建,紧跟竞品关键技术和方法动态,打造有行业竞争力的稳定性能力;

更新于 2025-10-18
logo of aliyun
社招10年以上云智能集团

1、识别阿里云内部各个团队的架构部署需求,进行基础架构领域的统一规划设计演进,建立合理的路线图,保持技术竞争力和持续演进能力。 2、架构设计把握业务全链路技术方案设计,确保技术可实现性、易用性,无重大风险。能够拆解复杂业务需求,变成可落地到团队或者个人的工作。 3、能够设计复杂系统的总体技术方案,并牵头重大技术项目的架构落地工作。 4、提炼架构原则和规范与治理机制,推动整个系统持续健康的演进。识别不合理的业务和架构设计,推动改进。 5、定期团队技术架构分享、技术文档和架构规范沉淀、学习引入新技术,赋能开发团队的技术成长,做好知识传承。 6、负责统一资源管理和优化,高可用架构设计和落地,提供公司统一的稳定、安全、可靠的底座平台。

更新于 2025-09-08
logo of aliyun
社招5年以上云智能产品解决方

1、作为产品解决方案架构师,深入理解灵骏及异构产品所负责的高性能AI智算集群的技术原理、架构和使用场景,能够根据企业级客户需求和产品能力,规划设计合理的灵骏产品解决方案,推动和实现产品的商业化落地。 2、具备良好的架构思维能力,能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑,结合云计算平台产品特点,敏锐捕捉市场趋势,分析竞对产品及市场策略,为产品的设计、实现、改进不断提出建设性的想法和建议,反哺产品能力建设,不断提升灵骏及异构产品的市场竞争力和市场份额。 3、与前线架构师/BTE销售紧密合作,主动了解客户当前在产品方案遇到的困难和需求,帮助客户解决技术问题,寻找新的业务突破点。推广产品方案并能够影响客户的基础设施、工程、算法等不同团队,用产品技术推动业务扩展。 4、分析云计算技术发展趋势/市场竟争格局,挖掘行业数据/客户商机,建立可复制行业解决方案,与产品内部的产品经理、资源及经营团队、研发等团队紧密配合,推动营收增长。

更新于 2025-06-18