logo of aliyun

阿里云阿里云智能-云网络智能运维研发专家-AI领域-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1. 5年以上IT、互联网、云计算行业运维开发工作经验;
2. 熟悉JavaGolang、python等主流开发语言,有运维自动化系统开发经验者从优;
3. 对云计算业务运维保障管理有丰富的实战经验,如复杂业务场景下的流程优化和过程改进、系统的高可用性架构实现、组织的稳定性意识提升等;
4. 善…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与运维可观测链路建设:
   1.1 建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具;
   1.2 建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理;
   1.3 建立快速分析、诊断、定位问题能力,并能够协同开发人员分析解决问题。
2. 参与运维可自愈链路建设:
   2.1 建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;
   2.2 建立故障注入机制,模拟生产故障场景,验证产品稳定性水位,提前发现系统能力短板。
3. 运维自动化体系建设:
   3.1 建设本领域相关的运维体系,如变更标准、重保体系、客情预警等,确保本领域产品运维&稳定性能力提升;
   3.2 建设稳定性能力的数据化体系,通过数据驱动方式持续治理稳定性风险;
   3.3 建设网络质量自动化探测评估体系,并结合观测链路和自愈链路,自动化隔离网络抖动带来的服务影响。
包括英文材料
Java+
Go+
还有更多 •••
相关职位

logo of aliyun
社招8年以上云智能集团

1、技术方案设计 • 收集、识别、分析DCN, AI infra 需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的DCN, AI infra 的发展趋势,参与UEC, SONiC等开源社区的工作, 并根据业务需要提供新的技术支持和建议, 让阿里的发展方向和业界的发展方向吻合。 5、技术规划 • 理解AI infra的战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-10杭州
logo of aliyun
社招5年以上技术类-开发

1.参与灵骏裸金属服务器及EGS实例的研发工作,包括但不限于早期邀请测试、线上服务质量保证以及性能优化等关键环节,确保产品从研发到上线的全生命周期管理。 2.负责灵骏、EGS和阿里云服务(ACS)GPU的单元测试设计与实现,确保测试覆盖率满足高标准的产品准入和准出要求,为产品质量保驾护航。 3.研发并持续改进系统的稳定性和安全功能,保障平台的安全可靠运行,以应对复杂的网络环境和潜在的安全威胁。

更新于 2025-06-18北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供领先的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。 云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。 云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于: 1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系 2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛 3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单 4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进 5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障 岗位职责: 1. 管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。 2. 负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。 3. 主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。 4. 结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。 5. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验

更新于 2025-07-10杭州
logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-22北京|杭州|上海