阿里云阿里云智能-智算研发技术专家-北京/杭州
任职要求
1)计算机科学或相关专业,5 年以上系统开发经验。 2)精通linux内核和虚拟化技术,具备大规模生产系统底层技术开发上线经验。 3)熟悉容器技术(Docker、containerd)及容器运行时(runc、gVisor)。 4)具备虚拟化或轻量虚拟机(microVM)开发经验,熟悉 Firecracke…
工作职责
我们正在构建面向 GPU 超级节点架构的新一代智算多租容器计算系统,采用以 Rust 编写的轻量级 VMM 为核心的安全容器架构,致力于打造具备强隔离、低虚拟化开销、高兼容性的 AI 原生运行时环境。你将作为核心系统工程师,深度参与底层虚拟化关键技术攻关,解决安全容器在大规模 GPU 计算场景下的性能、隔离与可扩展性难题。 这不仅是一次系统级编程的挑战,更是参与定义 AI 时代安全容器基础设施标准的战略机遇。 主要职责: 1)负责 GPU 超级节点新硬件的技术评估与选型标准制定,输出硬件适配路线图。 2)主导安全容器环境中设备虚拟化的关键技术攻坚,涵盖 vSMMU、SVA、GPUDirect RDMA 等核心模块的研发与优化。 3)设计并建设面向 GPU 超级节点的底层 VMM 自动化评测体系,支持性能、稳定性、安全性等多维度量化评估。 4)支撑系统在超大规模 AI 集群中的生产级落地,确保系统具备高可用、高性能、低成本的工程优势。 5)输出高质量系统设计文档,参与智算多租容器计算系统的底层架构评审与技术决策,推动架构持续演进。
阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括: 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计,满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化,提升集群运行效率,不断提升技术竞争力。 3、跟踪前沿技术趋势,推动新技术落地应用。参与行业标准制定。
1. 建设灵骏集群监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设满足业务场景和数据合规要求的智算集群库存管理体系,结合节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设智算集群和管控系统自身高可用体系,如智算集群健康检测、节点与集群异常快速处置体系、管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
智算存储技术开发专家将负责开发阿里云智算存储的数据的备份,容灾,同步,分层,治理子系统的研发,日常工作包括但不限于: 1. 设计和开发针对智算数据的大规模分布式数据保护与管理系统,包括但不限于数据重删,压缩,存储,复制,归档,分析功能,同时对系统的监控和运维能力负责,保证系统安全性和可靠性; 2. 测试,调优和运维大规模公共云服务和分布式存储系统; 3. 保持前瞻性, 随着业务复杂性, 负载增加, 运行管理复杂性的增加, 持续的推动系统设计的重构。