logo of aligenie

智能互联阿里云智能-高级运维开发工程-边缘云-杭州/北京

社招全职3年以上地点:北京 | 杭州状态:招聘

任职要求


工作经验要求:
1、3年以上IT、互联网、云计算行业运维工作经验,有较强的稳定性架构设计、部署和实施经验
2、具备较强的研发安全生产意识,在以往的工作中,能熟悉所负责子模块、子系统以及横向关联子模块、子系统的安全生产风险及预防措施,能够处置和恢复较复杂的安全和稳定性故障
3、有CDN和边缘计算经验优先
技能要求:
1、熟练掌握Golang/Java/Python等语言,具备Linux脚本编写能力,具有扎实的操作系统,TCP/IP
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责xCDN和边缘计算业务的运行保障工作,确保业务稳定运行。
2、负责xCDN和边缘计算业务的资源保障工作,确保业务能够在合理的容量水位下健康运行。
3、持续跟进云原生相关技术演进,探索云原生技术在中心/边缘等业务中的创新和落地;
4、参与自动化运维平台设计和研发工作,推进AIOPS落地
包括英文材料
系统设计+
Go+
Java+
Python+
Linux+
脚本+
TCP/IP+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)

更新于 2025-10-10杭州
logo of aliyun
社招3年以上云智能集团

1、负责虚拟化Hypervisor运维平台和运维技术的核心功能开发。 2、负责虚拟化资源池的部署与持续迭代,优化虚拟化版本迭代中的关键技术,建设虚拟化底座的风险识别和异常探测能力,保障高可用、高性能及可扩展性。 3、深度参与虚拟化相关问题的根因分析与性能调优,解决大规模实例运行中的稳定性与性能瓶颈。 4、协同管控、网络、存储、镜像、安全等团队完成虚拟化Hypervisor层的安全加固、合规改造与运维/质量标准化建设。

更新于 2025-11-03杭州|上海
logo of aliyun
社招3年以上技术类-质量保证

1、测试计划和策略制定 •协调开发团队,制定符合产品特点和测试需求的测试计划和测试策略,并根据测试结果进行优化和调整。 2、测试用例设计和执行 •分析技术文档,理解系统产品需求,评估技术方案和迭代流程。 •根据技术文档和需求,为模块测试、集成测试和系统测试等,构建测试场景、设计测试用例。 •使用各类测试工具和编程语言,开发自动化测试脚本并执行测试,收集测试结果。 3、缺陷分析和跟踪 •对测试结果进行分析和评估,发现和跟踪缺陷,并协调开发人员及时解决缺陷问题。 4、测试工具开发和维护 •开发、维护测试工具和平台,提升测试效率,并解决在测试过程中遇到的技术问题。 5、流程和方法建设 •通过流程改进、测试新技术和新方法引入,对现有测试方案进行改进,提升测试质量。

更新于 2025-07-04杭州
logo of aliyun
社招3年以上云智能集团

负责 OSS 服务层功能模块、运维系统等的开发、测试、运维工作,包括但不限于: 1、对象存储自动化迁移系统的设计和开发运维工作。 2、对象存储自动化调度系统的设计和开发运维工作,快速高效实现自动化调度。 3、对象存储数据分析系统的数据设计开发工作,通过机器学习、大模型等技术对线上问题进行自动化分析,并给出解决方案。

更新于 2026-01-09杭州