logo of aliyun

阿里云阿里云智能-存储运维系统研发专家-杭州/北京

社招全职5年以上技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1、5年及以上 Golang/Python/Java/C++ 研发经验,具备扎实的计算机语言基础,在工作场景中能够熟练应用。
2、熟悉存储领域的基础知识,特别是块存储领域,包括但不限于数据副本放置算法,分布式一致性协议、SCSI、NVMe等存储协议族、新存储硬件等。
3、具有大规模分布式存储系统的运维开发和生产运维能力,对生产运维具有敬畏之心,有生产稳定性意识。
4、具有较好的沟通能力,思路清晰,善于思考,能独立分析和解决问题。
5、有强烈的责任心和团队合作精神,良好的抗压能力,心态积极,能主动融入团队。

工作职责


1、负责块存储运维支撑系统的的设计、开发工作,制定技术演进路线并保持技术持续迭代升级,进而保障超大规模分布式块存储系统的生产稳定性。
2、负责块存储生产运维规则基线的定义和开发,通过交付部署管控、发布变更管控以及智能检测熔断能力,提供稳定安全可靠的基础环境。
3、针对大规模分布式块存储系统,负责构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的监控报警,并进行智能分析及根因定位。
4、负责运维能力的下沉,保障块存储运维支撑系统在线上线下能力的一致性。
包括英文材料
Go+
Python+
Java+
C+++
算法+
相关职位

logo of aliyun
社招5年以上云智能集团

1.构建盘古分布式文件系统的标准化输出能力,提高系统的自动化部署、运维能力; 2.梳理盘古分布式文件系统管控系统的依赖,降低对外部系统的依赖,建立运维管控系统回归测试能力; 3.重构盘古管控系统的数据层和逻辑层,确保系统在迭代更新的过程中始终保证兼容性和服务稳定; 4.对接阿里云安全体系和基础管控系统,确保系统能在多用户环境下安全稳定运行。

更新于 2025-09-11
logo of aliyun
社招5年以上技术类-开发

主要负责赤骥运维管控核心系统的的设计、开发工作,制定1-2年技术演进路线并实施以保持技术先进性,进而保障超大规模分布式存储系统的稳定性。包括但不限于: 1、构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的响应报警,并进行智能分析及根因定位。 2、基于跨区域容灾的运维资产管理能力,以及智能检测熔断能力,进行超大规模分布式系统的变更管控,提供稳定安全的发布变更系统。 3、深入理解所负责系统的结构和隐藏问题,能够制定具体的方案改进,保持系统的稳定性和可维护性。

更新于 2025-04-15
logo of aliyun
社招5年以上云智能集团

作为网络自动化研发专家,你会负责设计和开发支持阿里云业务的网络解决方案和相关自动化运维工具,基于分布式架构、大数据处理、SDN等先进技术,驱动下一代大规模网络基础设施的自动化运维和管理,如监控告警、故障定位、应急快恢、自动化变更、质量优化等。 具体岗位职责包括: 1、技术方案设计 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地

更新于 2025-09-25
logo of aliyun
社招3年以上云智能集团

1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。

更新于 2025-09-29