阿里云阿里云智能-操作系统 AI 软硬协同优化开发专家 (内核计算方向)-北京/杭州/上海
任职要求
1、至少精通内核内存子系统、调度子系统、虚拟化、体系结构(x86/ARM64/RISC-V)、性能分析优化方向其中之一,开源社区 maintainer/reviewer 或有开源社区贡献者优先。 2、具备 OS 内核定性、定量的稳定性和性能分析能力,能够针对 OS 基础软件栈结合大语言模型、多模态的训练推理场景做深度优化(稳定性/性能/成本)和软硬件协同研发。 3、善于深入业务场景,了解 AI Infra 的 Scale up 和 Scale out 分布式架构发展趋势,结合客户业务场景,定义软硬件协同优化的业务问题和技术…
工作职责
1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。
一、软件技术规划专家 — OS方向 主导智能手机操作系统(OS)的技术规划与架构演进,构建高性能、安全可靠、体验领先的OS技术底座,并推动跨终端OS生态协同,支撑公司终端产品全球竞争力提升: 1、OS技术战略规划:洞察全球操作系统技术趋势(Android/AOSP/Linux/RTOS/微内核等),制定3-5年OS技术路线图,定义关键子系统核心技术竞争力(如内核调度、安全架构、跨端互联、分布式多媒体、图形、AI等子系统) 2、OS-软硬协同规划:联合芯片团队,主导OS对新型硬件能力(CPU/NPU/GPU)的底层支持与性能调优规划;设计硬件抽象层(HAL)标准化方案,降低多芯片平台、多OS形态适配与维护成本 3、跨端OS技术整合:设计手机与IoT/车机/XR设备的OS协同架构(分布式软总线、多端任务迁移);主导跨端安全互联协议、数据互通框架、跨端AI等技术等标准化 4、OS逆向工程分析:主导OS核心架构及各子系统逆向工程分析(iOS、Android、RTOS、Linux等),详细拆解关键OS子系统能力,为OS技术规划提供技术竞争参考 二、软件技术规划与合作专家 — 芯片方向 负责智能手机芯片平台的前沿技术规划、软件生态合作及跨部门技术协同,推动芯片与系统软件的深度整合,打造高性能、低功耗、差异化的终端产品竞争力: 1、技术趋势洞察与规划:跟踪全球芯片技术(SoC/AP/ISP/NPU等)发展趋势,分析其对智能手机软件架构的影响;主导芯片平台的软件技术路线图制定,定义关键能力(如AI算力调度、能效优化、异构计算等) 2、芯片-软件协同设计:深度参与芯片选型与定义,确保硬件特性与系统层(驱动/Kernel/框架)的协同优化;推动芯片厂商(如高通、联发科、自研芯片团队)与内部软件团队的联合技术攻关 3、生态合作与资源整合:建立并维护与芯片厂商、IP供应商的战略合作关系,主导技术合作项目落地;整合芯片层能力(如AI引擎、安全模块、图像处理单元)至上层应用生态 4、技术竞争力构建:主导芯片平台性能、能效、稳定性等核心指标的软件优化方案,形成技术壁垒;探索创新场景(如端侧大模型、实时渲染、传感器融合)的芯片-软件协同方案 5、跨部门协同与赋能:联动硬件研发、系统开发、产品规划团队,确保技术规划与产品需求对齐;输出芯片技术白皮书、开发者指南,赋能内部团队及生态合作伙伴
围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计协同全栈优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提升 AI Infra 的综合性价比。 1、AI 优化特性开发:在充分掌握存储/DPU/CPU/GPU 技术栈的基础上,能够完成核心代码的编写和实现,指导团队成员,攻克复杂技术难题,并通过合理的团队分工和代码评审,确保工程落地。 2、参与 AI 新机型的操作系统适配和研发,能够完成新硬件功能代码的移植和优化,攻克复杂技术难题,使得新机型上线符合单租(普通容器形态)和多租(安全容器形态)业务预期。 3、负责制定和优化 AI 新机型研发的交付验收标准,达成业务稳定交付、快速交付和性能优化的目标,持续打造新机型上的系统软件技术竞争力。 4、技术规划:了解学术界工业界 AI Infra 的发展趋势,包括超节点服务器,以及开源社区的相关项目,在深入理解业务场景的前提下,完成操作系统南向软硬件协同优化的技术规划。
1. 技术方案设计 ● 了解并分析ECS基础设施(如神龙MoC卡 + 宿主机)在系统稳定性与高可用方面的设计目标; ● 根据业务需求,评估技术可行性,参与方案评审,完成技术选型、功能设计、系统架构、数据结构和开发流程的规划。 2. 技术实现 ● 参与虚拟机故障逃生等创新性技术的研发工作,能根据整体方案拆解任务,独立完成模块设计、编码和系统功能开发; ● 负责故障检测、隔离、恢复、数据一致性校验等核心功能的架构设计和代码实现,持续优化系统性能; ● 参与代码评审和阶段性讨论,通过调试和优化,确保代码高质量交付; ● 负责开发和上线后的系统维护,包括值班响应、问题排查、故障诊断、体验优化、性能与成本调优等; ● 编写必要的技术文档,如操作手册、排障指南、API说明等,支持团队运维和问题处理。 3. 系统稳定性与性能优化 ● 运用优化方法和技术手段,提升系统的安全性、稳定性和运行效率,保障ECS基础设施的可靠运行,改善客户使用体验。 4. 技术预研 ● 跟踪系统可靠性(RAS)和高可用技术的发展趋势,结合实际业务需求,提出可行的技术建议和架构改进方案。 5. 技术规划 ● 深入理解业务方向,结合长期发展需求,制定高可用、高可靠、易扩展的技术架构规划,并推动落地实施。