logo of aliyun

阿里云阿里云智能-操作系统 AI 软硬协同优化开发专家-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1、技术开发能力:精通 1-2 种系统开发编程语言,如 CPython、Rust 等,具备系统软件开发、调试和性能优化能力。
2、操作系统优化经验:深入理解 Linux 内核一个或多个子系统,如内存管理、文件系统等,具备根据业务需求对内核组件开发和优化能力。
3、跨软硬件领域的技术储备:具备系统软件定性、定量的性能分析能力,能识别系统中存在的瓶颈点并提出优化方案闭环;结合硬件 offload 能力与存储组件的协同设计,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


核心职责:
围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计全栈协同优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提高 AI Infra 的综合性价比。
1、技术方案设计:收集和分析客户业务场景需求,转化为研发需求输入,确定技术方案的目标、范围和交付成果。
2、技术实现:熟悉存储/DPU/CPU/GPU 技术栈,负责操作系统 AI 存储方向的优化项目,承担从需求交流与分析,设计开发,以及线上维护等全流程研发工作;并能指导团队成员,攻克复杂技术难题,通过合理的团队分工和代码评审,确保工程化落地。
3、稳定性和性能优化:具备 AI 存储领域的线上问题兜底能力,保障客户业务线上稳定性运行;能运用产品化技术和方法,分析并优化客户业务的存储性能。
4、技术规划:了解业界 AI Infra 存储方向的发展趋势,结合 AI 训练和推理对存储的诉求,形成操作系统 AI 存储方向的技术规划。
包括英文材料
C+
Python+
还有更多 •••
相关职位

logo of aligenie
社招5年以上

核心职责: 围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计全栈协同优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提高 AI Infra 的综合性价比。 1、技术方案设计:收集和分析客户业务场景需求,转化为研发需求输入,确定技术方案的目标、范围和交付成果。 2、技术实现:熟悉存储/DPU/CPU/GPU 技术栈,负责操作系统 AI 存储方向的优化项目,承担从需求交流与分析,设计开发,以及线上维护等全流程研发工作;并能指导团队成员,攻克复杂技术难题,通过合理的团队分工和代码评审,确保工程化落地。 3、稳定性和性能优化:具备 AI 存储领域的线上问题兜底能力,保障客户业务线上稳定性运行;能运用产品化技术和方法,分析并优化客户业务的存储性能。 4、技术规划:了解业界 AI Infra 存储方向的发展趋势,结合 AI 训练和推理对存储的诉求,形成操作系统 AI 存储方向的技术规划。

更新于 2026-04-01杭州
logo of aliyun
社招5年以上云智能集团

1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 RDMA 技术栈的深度优化,探索 DPU/CIPU 异构计算架构下的软硬协同设计方案,研究Falcon/UET 等新型网络协议的适用场景,推动协议层与存储/计算框架的深度集成。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。

更新于 2025-07-31杭州
logo of aliyun
社招5年以上云智能集团

1. 技术方案设计 ● 了解并分析ECS基础设施(如神龙MoC卡 + 宿主机)在系统稳定性与高可用方面的设计目标; ● 根据业务需求,评估技术可行性,参与方案评审,完成技术选型、功能设计、系统架构、数据结构和开发流程的规划。 2. 技术实现 ● 参与虚拟机故障逃生等创新性技术的研发工作,能根据整体方案拆解任务,独立完成模块设计、编码和系统功能开发; ● 负责故障检测、隔离、恢复、数据一致性校验等核心功能的架构设计和代码实现,持续优化系统性能; ● 参与代码评审和阶段性讨论,通过调试和优化,确保代码高质量交付; ● 负责开发和上线后的系统维护,包括值班响应、问题排查、故障诊断、体验优化、性能与成本调优等; ● 编写必要的技术文档,如操作手册、排障指南、API说明等,支持团队运维和问题处理。 3. 系统稳定性与性能优化 ● 运用优化方法和技术手段,提升系统的安全性、稳定性和运行效率,保障ECS基础设施的可靠运行,改善客户使用体验。 4. 技术预研 ● 跟踪系统可靠性(RAS)和高可用技术的发展趋势,结合实际业务需求,提出可行的技术建议和架构改进方案。 5. 技术规划 ● 深入理解业务方向,结合长期发展需求,制定高可用、高可靠、易扩展的技术架构规划,并推动落地实施。

更新于 2025-09-08北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1、服务器软硬件一体系统设计与开发:基于产品需求分析,进行整体技术方案设计、开发和验证交付。 2、系统性能优化:对服务器进行软硬件一体性能优化和分析,实现软件系统稳定性/性能的提升。 3、系统测试与维护:对软硬件系统进行集成验证交付,对系统性问题进行分析定位,快速解决,保证满足系统性能、稳定性等要求。

更新于 2025-11-13深圳|杭州