阿里云阿里云智能-操作系统 AI 软硬协同优化开发专家 (内核计算方向)-北京/杭州/上海
任职要求
1、至少精通内核内存子系统、调度子系统、虚拟化、体系结构(x86/ARM64/RISC-V)、性能分析优化方向其中之一,开源社区 maintainer/reviewer 或有开源社区贡献者优先。 2、具备 OS 内核定性、定量的稳定性和性能分析能力,能够针对 OS 基础软件栈结合大语言模型、多模态的训练推理场景做深度优化(稳定性/性能/成本)和软硬件协同研发。 3、善于深入业务场景,了解 AI Infra 的 Scale up 和 Scale out 分布式架构发展趋势,结合客户业务场景,定义软硬件协同优化的业务问题和技术…
工作职责
1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。
一、软件技术规划专家 — OS方向 主导智能手机操作系统(OS)的技术规划与架构演进,构建高性能、安全可靠、体验领先的OS技术底座,并推动跨终端OS生态协同,支撑公司终端产品全球竞争力提升: 1、OS技术战略规划:洞察全球操作系统技术趋势(Android/AOSP/Linux/RTOS/微内核等),制定3-5年OS技术路线图,定义关键子系统核心技术竞争力(如内核调度、安全架构、跨端互联、分布式多媒体、图形、AI等子系统) 2、OS-软硬协同规划:联合芯片团队,主导OS对新型硬件能力(CPU/NPU/GPU)的底层支持与性能调优规划;设计硬件抽象层(HAL)标准化方案,降低多芯片平台、多OS形态适配与维护成本 3、跨端OS技术整合:设计手机与IoT/车机/XR设备的OS协同架构(分布式软总线、多端任务迁移);主导跨端安全互联协议、数据互通框架、跨端AI等技术等标准化 4、OS逆向工程分析:主导OS核心架构及各子系统逆向工程分析(iOS、Android、RTOS、Linux等),详细拆解关键OS子系统能力,为OS技术规划提供技术竞争参考 二、软件技术规划与合作专家 — 芯片方向 负责智能手机芯片平台的前沿技术规划、软件生态合作及跨部门技术协同,推动芯片与系统软件的深度整合,打造高性能、低功耗、差异化的终端产品竞争力: 1、技术趋势洞察与规划:跟踪全球芯片技术(SoC/AP/ISP/NPU等)发展趋势,分析其对智能手机软件架构的影响;主导芯片平台的软件技术路线图制定,定义关键能力(如AI算力调度、能效优化、异构计算等) 2、芯片-软件协同设计:深度参与芯片选型与定义,确保硬件特性与系统层(驱动/Kernel/框架)的协同优化;推动芯片厂商(如高通、联发科、自研芯片团队)与内部软件团队的联合技术攻关 3、生态合作与资源整合:建立并维护与芯片厂商、IP供应商的战略合作关系,主导技术合作项目落地;整合芯片层能力(如AI引擎、安全模块、图像处理单元)至上层应用生态 4、技术竞争力构建:主导芯片平台性能、能效、稳定性等核心指标的软件优化方案,形成技术壁垒;探索创新场景(如端侧大模型、实时渲染、传感器融合)的芯片-软件协同方案 5、跨部门协同与赋能:联动硬件研发、系统开发、产品规划团队,确保技术规划与产品需求对齐;输出芯片技术白皮书、开发者指南,赋能内部团队及生态合作伙伴

1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性