阿里云阿里云智能-操作系统 AI 软硬协同优化开发专家 (内核计算方向)-北京/杭州/上海
社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘
任职要求
1、至少精通内核内存子系统、调度子系统、虚拟化、体系结构(x86/ARM64/RISC-V)、性能分析优化方向其中之一,开源社区 maintainer/reviewer 或有开源社区贡献者优先。 2、具备 OS 内核定性、定量的稳定性和性能分析能力,能够针对 OS 基础软件栈结合大语言模型、多模态的训练推理场景做深度优化(稳定性/性能/成本)和软硬件协同研发。 3、善于深入业务场景,了解 AI Infra 的 Scale up 和 Scale out 分布式架构发展趋势,结合客户业务场景,定义软硬件协同优化的业务问题和技术…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。
包括英文材料
内核+
https://www.youtube.com/watch?v=C43VxGZ_ugU
I rummage around the Linux kernel source and try to understand what makes computers do what they do.
https://www.youtube.com/watch?v=HNIg3TXfdX8&list=PLrGN1Qi7t67V-9uXzj4VSQCffntfvn42v
Learn how to develop your very own kernel from scratch in this programming series!
https://www.youtube.com/watch?v=JDfo2Lc7iLU
Denshi goes over a simple explanation of what computer kernels are and how they work, alonside what makes the Linux kernel any special.
还有更多 •••
相关职位
社招3年以上机器学习平台
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
北京|上海|深圳
社招3年以上基础业务质量组
1.负责业务质量保证工作,包括需求分析评审、测试计划制定、用例设计与执行、缺陷的跟踪和问题定位、项目质量风险把控等 2.针对业务痛点质量风险、线上问题分析,推进业务质量过程持续改进 3.自动化用例开发维护,性能测试脚本编写及执行,运用工具提高测试效率
更新于 2025-03-21北京
社招3年以上新房平台研发部
1.负责业务质量保证工作,包括需求分析评审、测试计划制定、用例设计与执行、缺陷的跟踪和问题定位、项目质量风险把控等; 2.针对业务痛点质量风险、线上问题分析,推进业务质量过程持续改进; 3.自动化用例开发维护,性能测试脚本编写及执行,运用工具提高测试效率.
更新于 2025-03-21北京