百度算力网络计算虚拟化研发工程师(J93535)
任职要求
-本科及以上学历,具备扎实的计算机理论基础,如数据结构、算法、计算机组成原理等 -至少 2 年GPU 服务器 / 云计算领域相关工作经验,熟悉 Linux 系统架构(如内核调度、内存管理、IO 模型)及性能优化方法 -有弹性裸金属服务器开发经验(如硬件适配、启动流程优化、资源调度)者优先;熟练掌握 Legacy/UEFI 启动流程、PXE 网络引导等服务器底层技术原理,能独立解决硬件启动或部署相关问题 -深入理解计算机体系结构(CPU/GPU 缓存、总线、IO 虚拟化等)、操作系统原理(进程 / 线程调度、内存管理、文件系统)及虚拟化技术 -深入掌握计算虚拟化核心技术,如 QEMU(设备模拟、虚拟机生命周期管理)、Libvirt(虚拟化资源调度与管理)的原理与实践 -熟悉 GPU 硬件特性与工作机制,了解主流 GPU 型号的技…
工作职责
-负责 GPU 场景下弹性裸金属服务器与弹性云主机的架构设计、核心模块开发及性能优化工作,保障服务的稳定性、可扩展性与算力效率 -研究并落地最新硬件加速技术(如 GPU 虚拟化增强、硬件卸载等),针对性提升 GPU 的计算能力、资源利用率及能效比 -参与 GPU 平台的整体设计与开发,定义 GPU 算力与平台组件(如存储、网络、调度系统)的集成方案,确保端到端算力交付效率 -跟踪 GPU 及云计算领域的技术趋势,输出技术调研报告,为平台技术选型与架构迭代提供决策支撑 -协同产品、测试、运维团队建立高效协作流程,覆盖需求评审、方案设计、开发联调、测试验证、上线运维全流程,推动产品按期高质量上线
-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持智驾、AIGC、金融能源、智算中心客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -构建异构多元芯算力底座,支持国产化信创,支持GPU虚拟化和混部调度,提升AI应用资源效率 -无缝对接客户和云上AI开发平台,支持文心和开源大模型训练推理任务部署,提供训练容错和弹性伸缩能力 -对接客户基础设施环境构建异构算力平台解决方案,支持大模型训练/推理ToB交付 -探索业界最新技术方向,参与开源社区,提升百度云原生AI核心竞争力
1.负责高性能计算集群的平台开发和建设工作,构建业界领先的集群算力调度能力、集群网络管理监控能力、集群故障发现和迁移自愈等能力; 2.负责主流 AI 框架的云平台适配和性能调优工作,针对业界大模型训练,将主流加速框架(如DeepSpeed、Megatron-LM)结合云平台底层技术特点和优势,打造具备差异化竞争力的 AI 加速平台产品能力; 3.负责主流 AI 模型训练和推理性能优化调优工作,提升 AI 推理业务快速部署能力,提供平台算法优化加速能力,能够灵活使用 Triton,TensorRT 等业界主流推理服务和组件,深度结合云原生产品技术架构优势,输出面向不同场景的性能加速最佳实践解决方案; 4.负责跟踪 AI行业技术发展趋势,并进行深度探索分析,协同产品制订 AI 技术发展路线和产品规划; 5.探索自研AI芯片分布式训练与推理云化能力,打造自研 AI 芯片一体化解决方案能力。
-负责云原生产品 Kubernetes 容器引擎、镜像服务、可观测服务等的设计与研发工作,提升产品竞争力及体验 -负责大规模 AI Infra 云原生底座的设计与研发工作,基于云原生技术打造异构多元芯算力底座,支持国产化信创,支持业务进行大规模训练、容错及弹性推理,构建异构多元芯算力底座 -负责打造现代化的云原生智能运维能力,设计和实现覆盖 AI 场景全栈的故障感知、诊断及自愈能力 -持续提升云原生产品服务及基础设施的稳定性,优化服务性能,提升架构的可扩展性 -探索业界最新技术方向,参与开源社区,提升百度云原生核心竞争力