快手GPU混部调度研发工程师-【可灵AI专项】
任职要求
1、本科及以上学历,计算机相关专业优先; 2、计算机和编程基础扎实,熟练掌握Java或Python,有服务端系统的开发经验; 3、有较强的工作责任心和自驱力,较好的学习能力和沟通能力,良好的工…
工作职责
团队负责快手可灵在线推理服务的GPU资源利用,为 AI 视频生成模型提供算力基石。GPU集群算力规模大,且随着可灵业务持续快速增长中,团队积累了丰富的 GPU 资源调度与优化经验,旨在打造覆盖多场景、多地域的万卡级 GPU 算力平台。其中,在推理服务、模型训练等核心场景,通过算力调度、弹性伸缩、虚拟化混部等技术实现了GPU利用率的高水位。 1、参与GPU利用率下钻指标的建设及分析,挖掘潜在的GPU利用率提升手段; 2、通过算力调度策略,协同同步业务的资源供给; 3、参与虚拟化混部技术方案的架构设计和核心代码开发,协同推动方案落地,通过混部和潮汐资源提升面向业务的GPU供给能力; 4、参与模型推理执行优化,设计模型推理执行流水线。
-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持智驾、AIGC、金融能源、智算中心客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -构建异构多元芯算力底座,支持国产化信创,支持GPU虚拟化和混部调度,提升AI应用资源效率 -无缝对接客户和云上AI开发平台,支持文心和开源大模型训练推理任务部署,提供训练容错和弹性伸缩能力 -对接客户基础设施环境构建异构算力平台解决方案,支持大模型训练/推理ToB交付 -探索业界最新技术方向,参与开源社区,提升百度云原生AI核心竞争力
-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持智驾、AIGC、金融能源、智算中心客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -构建异构多元芯算力底座,支持国产化信创,支持GPU虚拟化和混部调度,提升AI应用资源效率 -无缝对接客户和云上AI开发平台,支持文心和开源大模型训练推理任务部署,提供训练容错和弹性伸缩能力 -对接客户基础设施环境构建异构算力平台解决方案,支持大模型训练/推理ToB交付 -探索业界最新技术方向,参与开源社区,提升百度云原生AI核心竞争力
蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台,HCS产品架构师的职责包括: ● 平台架构设计: 在日益复杂的AI异构的大背景下,主导设计并构建能够支撑大规模算力交付的平台架构,涵盖系统,内核,存储,网络,算力,kubernetes,确保平台具备高性能、高可用、弹性扩展和安全性,满足海量业务场景需求。 ● 算力交付体系构建: 建立高效的算力交付体系,优化资源调度和分配策略,实现算力的快速供给和弹性伸缩,降低业务获取算力的复杂度,和提升算力使用体验。 ● 算力优化架构:设计和建设智算时代的通智一体的算力架构,实现算力的分时,混部,隔离,一体化调度的架构,充分满足业务的同时,提升资源利用率 ● 经营体系搭建: 构建算力服务的经营体系,制定合理的资源定价模型和计费策略,建立完善的成本控制和收益分析机制,推动平台实现商业化运营。
团队介绍:百度智能云AI计算部云原生AI计算团队致力于构建先进的通用和人工智能算力基础设施。在这个团队中,您将有机会与一流的工程师合作,深入参与到训练推理任务管理、异构资源调度、虚拟化混布、容器存储、分布式训练和推理等技术的创新和应用中。这是一个非常令人兴奋和有挑战性的团队,让我们携手,一起深入探索AI和云计算的无尽潜力 岗位职责: -负责大规模AI计算集群基础设施和产品的设计与研发工作,支撑内部业务和外部客户需求 - 构建异构多芯计算集群,优化GPU资源调度、虚拟化混布等核心能力,有效提升多芯供应能力和集群资源效率 -基于标准Kubernetes技术,负责云原生AI组件研发工作,包括训练推理服务编排、GPU资源调度和混布、AI存储、高性能网络等 -基于AI计算集群基础设施,设计和研发异构计算平台和解决方案,支持开发、训练、推理等多场景能力 - 提升服务和产品的稳定性,优化服务性能和可扩展性