阿里云阿里云智能-高级运维开发工程师-云通信-杭州

社招全职3年以上云智能集团2025-10-10地点：杭州状态：招聘

扫码手机上打开

任职要求

• 3年以上IT、互联网、云计算行业运维工作经验
• 子系统研发安全生产执行者
• 具备较强的研发安全生产意识，熟悉所负责子模块、子系统以及横向关联子模块、子系统的安全生产风险及预防措施，能够处置和恢复较复杂的安全和稳定性故障
• 在所负责的子模块、子系统的全链路研发流程中（需求理解、设计、测试、发布、运维）上严格遵循研发安全生产规范，保障系统的安全和稳定
• 具备参与研发安全演练的技术能力
• 对本领域的技术趋势和演进有持续的跟踪与了解
• 基本掌握架构设计、性能优化、稳定性优化等领域的专业…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、运维可观测链路建设
• 负责全链路稳定性解决方案的制定与执行，包括交付、变更、应急及稳定性专项建设；
• 事前：建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具；
• 事中：建立并持续优化产品运维的预警机制，确保故障能够被快速发现、通报、定位及处理；
• 事后：快速分析、诊断、定位问题，并能够协同开发人员解决问题；建立健全快速恢复服务机制，降低业务受损程度，确保产品、业务稳定运行；牵头问题复盘工作，通过架构优化等根治引起不可用的问题。
2、运维平台产品化与智能化建设
• 设计、研发并维护智能化的运维平台、工具、系统，帮助解决生产系统遇到的容量、性能、稳定性等问题，提升性能与效率；
• 负责运营质量数据化分析工作，通过对日常运维指标、问题、风险、稳定性结果进行分析和研究，建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议；
• 负责高可用体系建设，如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等，保障业务持续可用。
• 负责运维能力的抽象与设计，通过平台实现运维能力产品化，建立配套的标准运维手册，提升运维的易用性/完整性和降低误操作风险（专有云）；
• 将运维服务产品化能力传达给客户，建设客户心智，提升运维服务效率（反馈增加）
3、运维服务体系建设
• 建设本领域相关的运维体系(如变更标准，重保体系，客情预警等),确保本领域产品运维&稳定性能力提升；
• 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺；
• 基于SLA要求，评审新产品\新功能的架构是否可用、安全；
• 通过日常运维活动优化产品稳定性，达成SLA目标；
4、容量规划与调优
• 基于年度的产品线规划，进行预算编制、容量规划与置备，协调各方持续滚动进行存储、计算等资源消耗的预测与估算；
• 通过技术手段提升线上资源利用效率，降低物理资源成本（如结合对于业务波峰/波谷等的预测，进行混合部署）。
• 通过云平台与云产品的容量模型设计与调优以及配套的工具建设，降低云平台因为资源问题带来的稳定性风险并提升资源利用率（专有云）
5、安全保障建设
• 日常on call值班，及时响应告警及技术支持升级的疑难问题，并解决；
• 负责集团级重大活动（如双11等）的运维保障工作；
• 配合安全团队，梳理安全漏洞，优化相关技术架构，提升产品与系统的安全性。
• 负责云平台风险管理能力建设，通过风险策略库建设提前识别风险，建立风险预警和治理机制，推动云平台风险治理提升客户稳定性（专有云）
6、平台架构升级
• 负责系统架构升级，如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云
• 负责容灾架构设计并实施，如同城容灾、异地多活等
• 负责云平台软硬件生命周期设计，制定升级方案，通过商务法务产品与服务策略制定，推动客户云平台持续演进（专有云）
• 负责云平台的分层设计，并通过依赖与兼容性治理与优化，实现云平台分层解耦，提升交付、升级的灵活性与稳定性（专有云）

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

系统设计+

相关职位

阿里云智能-高级测试开发工程师-云通信-杭州

社招3年以上技术类-质量保证

1、测试计划和策略制定 •协调开发团队，制定符合产品特点和测试需求的测试计划和测试策略，并根据测试结果进行优化和调整。 2、测试用例设计和执行 •分析技术文档，理解系统产品需求，评估技术方案和迭代流程。 •根据技术文档和需求，为模块测试、集成测试和系统测试等，构建测试场景、设计测试用例。 •使用各类测试工具和编程语言，开发自动化测试脚本并执行测试，收集测试结果。 3、缺陷分析和跟踪 •对测试结果进行分析和评估，发现和跟踪缺陷，并协调开发人员及时解决缺陷问题。 4、测试工具开发和维护 •开发、维护测试工具和平台，提升测试效率，并解决在测试过程中遇到的技术问题。 5、流程和方法建设 •通过流程改进、测试新技术和新方法引入，对现有测试方案进行改进，提升测试质量。

更新于 2025-07-04杭州

高级运维工程师

社招网易云音乐

1、负责网易云音乐、Loft、支付等核心业务的系统与平台运维，涵盖操作系统、容器、分布式存储（Ceph）等方向，保障大规模业务的稳定运行； 2、**运维智能化**：设计并实现运维场景下的 AI Agent 系统，包括故障自愈 Agent、智能告警分析 Agent、变更风险评估 Agent 等，提升运维自动化与智能化水平； 3、参与线上业务运维，对线上业务的稳定性负责，利用 LLM 技术辅助故障诊断、根因分析与复盘报告生成，缩短 MTTR； 4、**SDD（Spec-Driven Development）实践**：运用 AI 辅助编写技术规范、运维手册与应急预案，构建可执行的运维知识库，推动文档即代码（Doc-as-Code）的智能化升级； 5、研发和优化运维工具/平台，将 AI 能力与自动化能力赋能给业务和其他团队，建设智能运维（AIOps）平台，提升整体效率； 6、**Prompt 工程与 LLM 应用**：针对运维场景优化大模型应用效果，构建领域专属的 Prompt 模板与知识库 RAG 系统； 7、跟进业界前沿运维技术与云原生体系，探索 AI 在可观测性、容量管理、故障预测等场景的创新应用，不断提升系统可靠性与运维质量。

更新于 2026-03-30杭州

高级运维工程师（SRE）

社招其他

1、负责支撑网易集团旗下云音乐、Loft、支付等互联网产品的运维工作（涵盖操作系统运维、系统运维、容器运维等多个层面的工作），帮助业务持续提升产品稳定性； 2、负责相关运维工具和平台研发，通过工具和平台将运维能力赋能给外部其他团队，帮助其他团队提升效率； 3、关注业界前沿技术动态，通过新的运维技术和方法解决线上问题，提升团队运维质量； 4、持续优化运维操作和流程，保障海量用户的互联网产品稳定运行。

更新于 2025-04-14杭州

阿里云智能-高级研发工程师Java-融合通信网络-北京/杭州

社招2年以上云智能集团

1. 负责云通信与全球运营商之间的链接，完成短信、语音（含5G视频）、流量的系统规划、设计、实施和运维 2. 负责相关系统的云原生技术升级； 3. 参与构建面向全球服务的分布式高可用的融合通信网； 4. 具备项目管理或模块owner能力，能独立负责一块业务规划，架构，落地，优化； 5. 新人指导、培训及Code Review，主导技术难题攻关，提升团队整体技术水平。

更新于 2025-09-03北京|杭州