logo of aligenie

智能互联阿里云智能-操作系统 AI 软硬协同优化开发专家 (内核计算方向)-北京/杭州/上海

社招全职5年以上地点:北京 | 杭州 | 上海状态:招聘

任职要求


1、至少精通内核内存子系统、调度子系统、虚拟化、体系结构(x86/ARM64/RISC-V)、性能分析优化方向其中之一,开源社区 maintainer/reviewer 或有开源社区贡献者优先。
2、具备 OS 内核定性、定量的稳定性和性能分析能力,能够针对 OS 基础软件栈结合大语言模型、多模态的训练推理场景做深度优化(稳定性/性能/成本)和软硬件协同研发。
3、善于深入业务场景,了解 AI Infra 的 Scale up 和 Scale out 分布式架构发展趋势,结合客户业务场景,定义软硬件协同优化的业务问题和技术…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。
2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。
3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。
4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。
5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。
包括英文材料
内核+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计协同全栈优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提升 AI Infra 的综合性价比。 1、AI 优化特性开发:在充分掌握存储/DPU/CPU/GPU 技术栈的基础上,能够完成核心代码的编写和实现,指导团队成员,攻克复杂技术难题,并通过合理的团队分工和代码评审,确保工程落地。 2、参与 AI 新机型的操作系统适配和研发,能够完成新硬件功能代码的移植和优化,攻克复杂技术难题,使得新机型上线符合单租(普通容器形态)和多租(安全容器形态)业务预期。 3、负责制定和优化 AI 新机型研发的交付验收标准,达成业务稳定交付、快速交付和性能优化的目标,持续打造新机型上的系统软件技术竞争力。 4、技术规划:了解学术界工业界 AI Infra 的发展趋势,包括超节点服务器,以及开源社区的相关项目,在深入理解业务场景的前提下,完成操作系统南向软硬件协同优化的技术规划。

更新于 2026-01-08成都|杭州
logo of aliyun
社招5年以上云智能集团

1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。

更新于 2026-02-10北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

核心职责: 围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计全栈协同优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提高 AI Infra 的综合性价比。 1、技术方案设计:收集和分析客户业务场景需求,转化为研发需求输入,确定技术方案的目标、范围和交付成果。 2、技术实现:熟悉存储/DPU/CPU/GPU 技术栈,负责操作系统 AI 存储方向的优化项目,承担从需求交流与分析,设计开发,以及线上维护等全流程研发工作;并能指导团队成员,攻克复杂技术难题,通过合理的团队分工和代码评审,确保工程化落地。 3、稳定性和性能优化:具备 AI 存储领域的线上问题兜底能力,保障客户业务线上稳定性运行;能运用产品化技术和方法,分析并优化客户业务的存储性能。 4、技术规划:了解业界 AI Infra 存储方向的发展趋势,结合 AI 训练和推理对存储的诉求,形成操作系统 AI 存储方向的技术规划。

更新于 2026-04-01杭州
logo of aligenie
社招5年以上

核心职责: 围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计全栈协同优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提高 AI Infra 的综合性价比。 1、技术方案设计:收集和分析客户业务场景需求,转化为研发需求输入,确定技术方案的目标、范围和交付成果。 2、技术实现:熟悉存储/DPU/CPU/GPU 技术栈,负责操作系统 AI 存储方向的优化项目,承担从需求交流与分析,设计开发,以及线上维护等全流程研发工作;并能指导团队成员,攻克复杂技术难题,通过合理的团队分工和代码评审,确保工程化落地。 3、稳定性和性能优化:具备 AI 存储领域的线上问题兜底能力,保障客户业务线上稳定性运行;能运用产品化技术和方法,分析并优化客户业务的存储性能。 4、技术规划:了解业界 AI Infra 存储方向的发展趋势,结合 AI 训练和推理对存储的诉求,形成操作系统 AI 存储方向的技术规划。

更新于 2026-04-01杭州