logo of aliyun

阿里云阿里云智能-操作系统 AI 软硬协同优化开发专家-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1、技术开发能力:精通 1-2 种系统开发编程语言,如 CPython、Rust 等,具备系统软件开发、调试和性能优化能力。
2、操作系统优化经验:深入理解 Linux 内核一个或多个子系统,如内存管理、文件系统等,具备根据业务需求对内核组件开发和优化能力。
3、跨软硬件领域的技术储备:具备系统软件定性、定量的性能分析能力,能识别系统中存在的瓶颈点并提出优化方案闭环;结合硬件 offload 能力与存储组件的协同设计,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


核心职责:
围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计全栈协同优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提高 AI Infra 的综合性价比。
1、技术方案设计:收集和分析客户业务场景需求,转化为研发需求输入,确定技术方案的目标、范围和交付成果。
2、技术实现:熟悉存储/DPU/CPU/GPU 技术栈,负责操作系统 AI 存储方向的优化项目,承担从需求交流与分析,设计开发,以及线上维护等全流程研发工作;并能指导团队成员,攻克复杂技术难题,通过合理的团队分工和代码评审,确保工程化落地。
3、稳定性和性能优化:具备 AI 存储领域的线上问题兜底能力,保障客户业务线上稳定性运行;能运用产品化技术和方法,分析并优化客户业务的存储性能。
4、技术规划:了解业界 AI Infra 存储方向的发展趋势,结合 AI 训练和推理对存储的诉求,形成操作系统 AI 存储方向的技术规划。
包括英文材料
C+
Python+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

围绕 AI 场景的系统瓶颈和能力短板,结合存储/DPU/CPU/GPU 的软硬件特性设计协同全栈优化,提升 OS 对 AI Infra 服务的有效可用时长,优化系统吞吐和延迟表现,提升 AI Infra 的综合性价比。 1、AI 优化特性开发:在充分掌握存储/DPU/CPU/GPU 技术栈的基础上,能够完成核心代码的编写和实现,指导团队成员,攻克复杂技术难题,并通过合理的团队分工和代码评审,确保工程落地。 2、参与 AI 新机型的操作系统适配和研发,能够完成新硬件功能代码的移植和优化,攻克复杂技术难题,使得新机型上线符合单租(普通容器形态)和多租(安全容器形态)业务预期。 3、负责制定和优化 AI 新机型研发的交付验收标准,达成业务稳定交付、快速交付和性能优化的目标,持续打造新机型上的系统软件技术竞争力。 4、技术规划:了解学术界工业界 AI Infra 的发展趋势,包括超节点服务器,以及开源社区的相关项目,在深入理解业务场景的前提下,完成操作系统南向软硬件协同优化的技术规划。

更新于 2026-01-08成都|杭州
logo of aliyun
社招5年以上云智能集团

1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。

更新于 2026-02-10北京|杭州|上海
logo of quark
社招3年以上技术类-质量保证

1. 负责智能硬件产品的系统级功能与性能测试,覆盖操作系统、中间件、应用层及软硬协同场景; 2. 针对复杂系统架构中的偶发性问题(如死机、重启、卡顿、音视频异常等),设计并实施高效、可复现的测试方案; 3. 开发与维护自动化测试工具与框架,提升偶现问题的复现效率与回归验证速度; 4. 构建性能量化评估体系,开发自动化工具对CPU/GPU负载、内存泄漏、功耗、响应时延等关键指标进行持续监控与分析; 5. 主导测试策略制定,推动测试左移与质量内建,持续优化测试流程与方法论,引领系统测试领域技术演进,提升整体系统性能稳定性与用户体验。

更新于 2026-03-23杭州
logo of aliyun
社招5年以上云智能集团

1、服务器软硬件一体系统设计与开发:基于产品需求分析,进行整体技术方案设计、开发和验证交付。 2、系统性能优化:对服务器进行软硬件一体性能优化和分析,实现软件系统稳定性/性能的提升。 3、系统测试与维护:对软硬件系统进行集成验证交付,对系统性问题进行分析定位,快速解决,保证满足系统性能、稳定性等要求。

更新于 2025-11-13深圳|杭州