logo of aliyun

阿里云阿里云智能-智算研发技术专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1)计算机科学或相关专业,5 年以上系统开发经验。
2)精通linux内核和虚拟化技术,具备大规模生产系统底层技术开发上线经验。
3)熟悉容器技术(Docker、containerd)及容器运行时(runc、gVisor)。
4)具备虚拟化或轻量虚拟机(microVM)开发经验,熟悉 Firecracke…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在构建面向 GPU 超级节点架构的新一代智算多租容器计算系统,采用以 Rust 编写的轻量级 VMM 为核心的安全容器架构,致力于打造具备强隔离、低虚拟化开销、高兼容性的 AI 原生运行时环境。你将作为核心系统工程师,深度参与底层虚拟化关键技术攻关,解决安全容器在大规模 GPU 计算场景下的性能、隔离与可扩展性难题。
这不仅是一次系统级编程的挑战,更是参与定义 AI 时代安全容器基础设施标准的战略机遇。

主要职责:
1)负责 GPU 超级节点新硬件的技术评估与选型标准制定,输出硬件适配路线图。
2)主导安全容器环境中设备虚拟化的关键技术攻坚,涵盖 vSMMU、SVA、GPUDirect RDMA 等核心模块的研发与优化。
3)设计并建设面向 GPU 超级节点的底层 VMM 自动化评测体系,支持性能、稳定性、安全性等多维度量化评估。
4)支撑系统在超大规模 AI 集群中的生产级落地,确保系统具备高可用、高性能、低成本的工程优势。
5)输出高质量系统设计文档,参与智算多租容器计算系统的底层架构评审与技术决策,推动架构持续演进。
包括英文材料
Linux+
内核+
还有更多 •••
相关职位

logo of aliyun
社招5年以上技术类-开发

阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括: 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计,满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化,提升集群运行效率,不断提升技术竞争力。 3、跟踪前沿技术趋势,推动新技术落地应用。参与行业标准制定。

更新于 2025-05-22成都|北京|深圳
logo of aliyun
社招5年以上云智能集团

1. 建设灵骏集群监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设满足业务场景和数据合规要求的智算集群库存管理体系,结合节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设智算集群和管控系统自身高可用体系,如智算集群健康检测、节点与集群异常快速处置体系、管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-11-26北京|杭州
logo of aliyun
社招5年以上云智能集团

智算存储技术开发专家将负责开发阿里云智算存储的数据的备份,容灾,同步,分层,治理子系统的研发,日常工作包括但不限于: 1. 设计和开发针对智算数据的大规模分布式数据保护与管理系统,包括但不限于数据重删,压缩,存储,复制,归档,分析功能,同时对系统的监控和运维能力负责,保证系统安全性和可靠性; 2. 测试,调优和运维大规模公共云服务和分布式存储系统; 3. 保持前瞻性, 随着业务复杂性, 负载增加, 运行管理复杂性的增加, 持续的推动系统设计的重构。

更新于 2025-11-23北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

- 负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进 - 主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能 - 构建面向AI与Agent应用的Serverless容器算力产品 - 基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案 - 推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践

更新于 2026-01-05北京|杭州