阿里云阿里云智能-异构资源软硬件结合开发专家-杭州

社招全职5年以上云智能集团2025-07-16地点：杭州状态：招聘

扫码手机上打开

任职要求

1.拥有扎实的编码功底，精通C/C++/Go/Rust等语言，拥有规范的工程化能力；
2.深入理解Linux系统，有大规模生产系统软件的开发与运维经验；
3.有大规模GPU集群监控，性能调优/profiling，调度经验；
4.熟悉异构计算编程， 熟悉主流AI加速芯片（如NVIDIA,AMD等）的系统结构和计算特性；
5.熟悉kubernetes系统架构和编程范式，有容器化技术实战经验；
6.具备英文技术文档研读能力，计算机相关…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 基于对目前主流AI芯片的深刻理解，分析硬件系统结构，提供软硬件优化实践和调优指南；
2. 了解市场上主流AI，大数据，HPC应用对异构计算系统设计的挑战，应用AI加速芯片，设计打造高效异构计算产品；
3. 聚焦异构资源在线性能分析，负责系统级性能分析和业务瓶颈定位，助力异构集群的极致稳定；
4. 实现异构计算基础设施serverless化，驱动异构云原生架构演进；
5. 洞悉人工智能及深度学习的应用发展趋势，参与下一代机器学习算力产品设计。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Go+

Rust+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-操作系统 AI 软硬协同优化开发专家 (内核计算方向)-北京/杭州/上海

社招5年以上云智能集团

1、面向智算异构架构的操作系统协同研发，深度参与面向下一代智能操作系统架构设计与实现，聚焦 CPU/GPU/DPU 等异构硬件平台，重点覆盖任务调度、设备抽象、资源隔离等关键子系统，支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化，结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力，针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景，设计 OS 层面的调度策略、缓存机制与资源管控方案，提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划，跟踪学术界与工业界在 AI 系统软件领域的业界进展，结合云上真实业务负载，制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期，稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区，包括团队相关技术领域专利/论文贡献，提升上游社区贡献度和团队技术影响力。

更新于 2026-02-10北京|杭州|上海

阿里云智能-操作系统 AI 软硬协同优化开发专家 (内核计算方向)-北京/杭州/上海

社招5年以上

更新于 2026-04-07北京|杭州|上海

阿里云智能-大规模异构集群调度研发专家-AI领域

社招5年以上云智能集团

● 负责PAI平台资源调度模块的设计与开发，全面支撑模型训练、评估及推理阶段的资源调度需求。 ● 负责GPU、CPU 及其他异构硬件资源的统一编排与高效调度，实现对稳态资源、潮汐资源、混部资源以及多云环境下资源的合理分配与协同利用。 ● 聚焦资源复用与集群利用率提升，结合大模型场景中预训练、后训练、离线推理、评估等任务的负载特征，优化排队策略、优先级管理与抢占机制，最大化整体资源效能。 ● 构建端到端的故障可观测体系，针对训练/推理任务中频发的软硬件异常（如 GPU XID 错误、网络超时、节点失联等），完善日志、指标、事件的采集与关联分析能力，实现问题快速定位与根因追溯。 ● 研发智能诊断与自动容错机制，基于历史故障模式与运行时上下文，开发自动化诊断引擎，支持动态降级、局部重试、弹性扩缩容等策略，减少人工干预，提升作业自愈能力。 ● 打造训练过程可视化与用户体验闭环，建设面向用户的训练状态看板，直观呈现任务健康度、资源使用、通信瓶颈及异常告警，并提供可操作建议，降低使用门槛，加速问题反馈与迭代优化。

更新于 2026-03-24北京|杭州

阿里云智能-对象存储技术专家-AI领域-杭州

社招5年以上云智能集团

1. 负责不同机型的性能调优和稳定性验证，以保障线上运行的稳定性； 2. 负责异构系统的设计和研发，包括针对异构机器上服务的自适应调度、资源控制、性能优化等； 3. 负责OSS服务层特性的设计和研发，包括但不限于：针对高性能存储的架构开发，功能特性设计和优化，以及结合硬件系统特性进行系统优化等。

更新于 2025-11-23杭州