阿里云阿里云智能-智算研发技术专家-北京/杭州
任职要求
1)计算机科学或相关专业,5 年以上系统开发经验。 2)精通linux内核和虚拟化技术,具备大规模生产系统底层技术开发上线经验。 3)熟悉容器技术(Docker、containerd)及容器运行时(runc、gVisor)。 4)具备虚拟化或轻量虚拟机(microVM)开发经验,熟悉 Firecracke…
工作职责
我们正在构建面向 GPU 超级节点架构的新一代智算多租容器计算系统,采用以 Rust 编写的轻量级 VMM 为核心的安全容器架构,致力于打造具备强隔离、低虚拟化开销、高兼容性的 AI 原生运行时环境。你将作为核心系统工程师,深度参与底层虚拟化关键技术攻关,解决安全容器在大规模 GPU 计算场景下的性能、隔离与可扩展性难题。 这不仅是一次系统级编程的挑战,更是参与定义 AI 时代安全容器基础设施标准的战略机遇。 主要职责: 1)负责 GPU 超级节点新硬件的技术评估与选型标准制定,输出硬件适配路线图。 2)主导安全容器环境中设备虚拟化的关键技术攻坚,涵盖 vSMMU、SVA、GPUDirect RDMA 等核心模块的研发与优化。 3)设计并建设面向 GPU 超级节点的底层 VMM 自动化评测体系,支持性能、稳定性、安全性等多维度量化评估。 4)支撑系统在超大规模 AI 集群中的生产级落地,确保系统具备高可用、高性能、低成本的工程优势。 5)输出高质量系统设计文档,参与智算多租容器计算系统的底层架构评审与技术决策,推动架构持续演进。
阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括: 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计,满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化,提升集群运行效率,不断提升技术竞争力。 3、跟踪前沿技术趋势,推动新技术落地应用。参与行业标准制定。
1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展,分析前沿技术和网络的关联以及优化方向; • 分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化; 2、技术实现 • 负责AI计算系统的通信库研发、测试、以及交付与支持 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能 5、技术规划 • 理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。
1. 建设灵骏集群监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设满足业务场景和数据合规要求的智算集群库存管理体系,结合节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设智算集群和管控系统自身高可用体系,如智算集群健康检测、节点与集群异常快速处置体系、管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。