阿里云阿里云智能-云平台运维专家-杭州

社招全职5年以上云智能集团2025-07-15地点：杭州状态：招聘

扫码手机上打开

任职要求

• 5年以上IT、互联网、云计算行业运维工作经验
• 研发项目管理经验
• 单产品研发安全生产执行者
• 能够在单产品/中型复杂系统层面推动建立完善的研发安全生产体系，并推动落地，保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
• 熟练掌握业内主流的研发安全生产技术体系
• 具有产品级、中型复杂系统的研发安全生产经验，能够应对比较复杂的项目环境和各类突发状况，保障研发项目的平稳落地
• 具备参与研发安全演练的技术能力，是容灾演练、红蓝对抗、突袭演练等场景下的一线主力
• 对本领域的技术趋势和演进有较为深入的了解；
• 熟练掌握架构设计…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、运维可观测链路建设
• 负责全链路稳定性解决方案的制定与执行，包括交付、变更、应急及稳定性专项建设；
• 事前：建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具；
• 事中：建立并持续优化产品运维的预警机制，确保故障能够被快速发现、通报、定位及处理；
• 事后：快速分析、诊断、定位问题，并能够协同开发人员解决问题；建立健全快速恢复服务机制，降低业务受损程度，确保产品、业务稳定运行；牵头问题复盘工作，通过架构优化等根治引起不可用的问题。
2、运维平台产品化与智能化建设
• 设计、研发并维护智能化的运维平台、工具、系统，帮助解决生产系统遇到的容量、性能、稳定性等问题，提升性能与效率；
• 负责运营质量数据化分析工作，通过对日常运维指标、问题、风险、稳定性结果进行分析和研究，建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议；
• 负责高可用体系建设，如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等，保障业务持续可用。
• 负责运维能力的抽象与设计，通过平台实现运维能力产品化，建立配套的标准运维手册，提升运维的易用性/完整性和降低误操作风险（专有云）；
• 将运维服务产品化能力传达给客户，建设客户心智，提升运维服务效率（反馈增加）
3、运维服务体系建设
• 建设本领域相关的运维体系(如变更标准，重保体系，客情预警等),确保本领域产品运维&稳定性能力提升；
• 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺；
• 基于SLA要求，评审新产品\新功能的架构是否可用、安全；
• 通过日常运维活动优化产品稳定性，达成SLA目标；
4、容量规划与调优
• 基于年度的产品线规划，进行预算编制、容量规划与置备，协调各方持续滚动进行存储、计算等资源消耗的预测与估算；
• 通过技术手段提升线上资源利用效率，降低物理资源成本（如结合对于业务波峰/波谷等的预测，进行混合部署）。
• 通过云平台与云产品的容量模型设计与调优以及配套的工具建设，降低云平台因为资源问题带来的稳定性风险并提升资源利用率（专有云）
5、安全保障建设
• 日常on call值班，及时响应告警及技术支持升级的疑难问题，并解决；
• 负责集团级重大活动（如双11等）的运维保障工作；
• 配合安全团队，梳理安全漏洞，优化相关技术架构，提升产品与系统的安全性。
• 负责云平台风险管理能力建设，通过风险策略库建设提前识别风险，建立风险预警和治理机制，推动云平台风险治理提升客户稳定性（专有云）
6、平台架构升级
• 负责系统架构升级，如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云
• 负责容灾架构设计并实施，如同城容灾、异地多活等
• 负责云平台软硬件生命周期设计，制定升级方案，通过商务法务产品与服务策略制定，推动客户云平台持续演进（专有云）
• 负责云平台的分层设计，并通过依赖与兼容性治理与优化，实现云平台分层解耦，提升交付、升级的灵活性与稳定性（专有云）

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

系统设计+

相关职位

阿里云智能-高级前端工程师/专家-云内可观测-杭州

社招5年以上技术类-前端

1、负责小天基/神农控制台/ASO/staragent/统一运维平台的前端开发工作，完成产品的前端框架升级，保证流畅的交互体验。 2、结合阿里云整体的视觉设计风格，建设统一的前端基础组件库（组件库、图形库、工程体系、低代码、服务化平台等），保障前端性能及交互一致性的同时，提升研发效率 3、基于阿里云统一的AEM基础设施对用户行为进行记录并建立数据化度量体系，为产品交互及后端性能优化方案或技术选型提供数据支撑 4、负责线上系统的维护和管理，保障系统稳定运行；

更新于 2025-04-02杭州

阿里云智能-大数据研发专家-Maxcompute

社招8年以上技术类-开发

1、承担MaxCompute管控系统架构师角色，负责产品技术架构演进方向 2、面向全球不同客户设计合理的产品方案，梳理存储、计算、售卖、控制台、运维体系架构，确定技术方案选型 3、承担MaxCompute管控系统设计、研发、测试、发布与运维 4、与MaxCompute各研发团队+SRE中台团队+阿里云售卖平台配合，共同推进技术项目按要求落地

更新于 2025-04-02杭州

阿里云智能-技术服务专家-政务云-杭州/西安

社招5年以上云智能集团

1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议，使客户的IT架构、性能等层面得到更好的优化与提升，制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀，出具技术方案并推动相关产品团队解决落地，同时赋能一线运维团队自运维能力； 3、负责产品巡检工具与问题诊断分析工具开发，提升客户云平台的预警与异常自发现能力，提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战，提供技术底盘及业务能力支持。 5、完成核心技术攻关，识别和解决潜在的技术风险

更新于 2025-08-27杭州|西安

阿里云智能-表格存储技术专家-杭州/北京/上海

社招5年以上技术类-开发

1. 参与 PB 级分布式引擎设计与开发，包括存储、索引等的功能实现与性能和成本优化； 2. 参与稳定性建设，优化分片调度与负载均衡机制，研发不同高可用产品形态，包括：同城多可用区、异地容灾、全球多活等； 3. 跟踪业界前沿动态，学习和吸纳开源的大数据计算和存储技术，帮助产品探索和实现更多的玩法。

更新于 2025-04-15北京|杭州|上海