阿里云阿里云智能-智算研发技术专家-北京/杭州

社招全职5年以上云智能集团2026-01-05地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1）计算机科学或相关专业，5 年以上系统开发经验。
2）精通linux内核和虚拟化技术，具备大规模生产系统底层技术开发上线经验。
3）熟悉容器技术（Docker、containerd）及容器运行时（runc、gVisor）。
4）具备虚拟化或轻量虚拟机（microVM）开发经验，熟悉 Firecracke…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在构建面向 GPU 超级节点架构的新一代智算多租容器计算系统，采用以 Rust 编写的轻量级 VMM 为核心的安全容器架构，致力于打造具备强隔离、低虚拟化开销、高兼容性的 AI 原生运行时环境。你将作为核心系统工程师，深度参与底层虚拟化关键技术攻关，解决安全容器在大规模 GPU 计算场景下的性能、隔离与可扩展性难题。
这不仅是一次系统级编程的挑战，更是参与定义 AI 时代安全容器基础设施标准的战略机遇。

主要职责：
1）负责 GPU 超级节点新硬件的技术评估与选型标准制定，输出硬件适配路线图。
2）主导安全容器环境中设备虚拟化的关键技术攻坚，涵盖 vSMMU、SVA、GPUDirect RDMA 等核心模块的研发与优化。
3）设计并建设面向 GPU 超级节点的底层 VMM 自动化评测体系，支持性能、稳定性、安全性等多维度量化评估。
4）支撑系统在超大规模 AI 集群中的生产级落地，确保系统具备高可用、高性能、低成本的工程优势。
5）输出高质量系统设计文档，参与智算多租容器计算系统的底层架构评审与技术决策，推动架构持续演进。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

内核+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-资深技术专家（专有云智算方向）-北京/杭州/上海/深圳/成都

社招5年以上技术类-开发

阿里云专有云是面向政企行业客户的全栈云平台，为企业级客户（政府、金融、部委、央企等行业）提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括： 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计，满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化，提升集群运行效率，不断提升技术竞争力。 3、跟踪前沿技术趋势，推动新技术落地应用。参与行业标准制定。

更新于 2025-05-22成都|北京|深圳

阿里云智能-AI智算集群监管控及算力管理平台技术专家-北京/杭州

社招5年以上云智能集团

1. 建设灵骏集群监管控系统核心能力，不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设满足业务场景和数据合规要求的智算集群库存管理体系，结合节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力，持续提升灵骏智算集群产品竞争力。 3. 建设智算集群和管控系统自身高可用体系，如智算集群健康检测、节点与集群异常快速处置体系、管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等，保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统，持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术，结合业务场景进行创新。 6. 该职位涉及值班响应的职责，在服务级别协议（SLA）时间内做出对客响应，推动客户问题的解决，改善客户体验。

更新于 2025-11-26北京|杭州

阿里云智能-智算集群通信优化技术专家-北京杭州

社招5年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展，分析前沿技术和网络的关联以及优化方向； • 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化； 2、技术实现 • 负责AI计算系统的通信库研发、测试、以及交付与支持 • 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠 • 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能 4、技术预研 • 分析AI业务通信pattern和发展趋势，探索通信库的优化空间，以及AI计算系统全栈的协同设计，提升系统端到端的稳定性和性能 5、技术规划 • 理解业务战略及重点，基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2026-03-25北京|杭州

阿里云智能-智算应用网络高级架构师-杭州/北京

社招8年以上云智能集团

阿里巴巴自研的应用网络系统，已广泛应用于阿里集团应用、阿里云通用计算和AI智算产品，承载着海量的实时数据，实现了百万数量级应用节点的超大集群规模。 1、负责阿里巴巴智算网络中的容器网络、管控系统在多个场景中的需求分析，深入理解阿里集团和阿里云产品的业务部署模式，支撑应用和产品的网络演进； 2、负责阿里巴巴网络解决方案设计和交付，从业务场景出发，围绕云原生业务需求和基础设施环境，打造极致性能、部署灵活的应用网络系统； 3、参与阿里巴巴云原生的网络的技术创新和探索，与公司内外专家合作，不断提升品牌价值。

更新于 2025-09-08北京|杭州