logo of baidu

百度算力网络计算虚拟化研发工程师(J93535)

社招全职2年以上ACG地点:上海状态:招聘

任职要求


-本科及以上学历,具备扎实的计算机理论基础,如数据结构算法、计算机组成原理等
-至少 2 年GPU 服务器 / 云计算领域相关工作经验,熟悉 Linux 系统架构(如内核调度、内存管理、IO 模型)及性能优化方法
-有弹性裸金属服务器开发经验(如硬件适配、启动流程优化、资源调度)者优先;熟练掌握 Legacy/UEFI 启动流程、PXE 网络引导等服务器底层技术原理,能独立解决硬件启动或部署相关问题
-深入理解计算机体系结构(CPU/GPU 缓存、总线、IO 虚拟化等)、操作系统原理(进程 / 线程调度、内存管理、文件系统)及虚拟化技术
-深入掌握计算虚拟化核心技术,如 QEMU(设备模拟、虚拟机生命周期管理)、Libvirt(虚拟化资源调度与管理)的原理与实践
-熟悉 GPU 硬件特性与工作机制,了解主流 GPU 型号的技术参数及适配要点;了解主流云计算平台的 GPU 服务架构与特性,能借鉴行业实践优化自研平台
-熟悉云原生相关技术栈,包括 Kubernetes(资源调度、自定义控制器)、KubeVirt(虚拟机与容器融合)等,能实现 GPU 资源的云原生化管理
-具备良好的编程能力,熟练掌握 C/C++Go 等编程语言中的至少一种,具备扎实的代码编写、模块封装与问题调试能力
能使用 Git 进行版本管理,具备 Shell/Python 脚本开发能力

-具备较强的问题分析与解决能力,能独立定位并解决 GPU 平台开发中的技术难点
-拥有良好的团队协作精神,能与跨部门(产品、测试、运维)高效沟通,推动项目落地
-能承受一定的工作压力,对 GPU、云计算等前沿技术有持续学习和探索的热情
-具备清晰的技术文档编写能力,能输出方案设计、技术总结等文档

工作职责


-负责 GPU 场景下弹性裸金属服务器与弹性云主机的架构设计、核心模块开发及性能优化工作,保障服务的稳定性、可扩展性与算力效率
-研究并落地最新硬件加速技术(如 GPU 虚拟化增强、硬件卸载等),针对性提升 GPU 的计算能力、资源利用率及能效比
-参与 GPU 平台的整体设计与开发,定义 GPU 算力与平台组件(如存储、网络、调度系统)的集成方案,确保端到端算力交付效率
-跟踪 GPU 及云计算领域的技术趋势,输出技术调研报告,为平台技术选型与架构迭代提供决策支撑
-协同产品、测试、运维团队建立高效协作流程,覆盖需求评审、方案设计、开发联调、测试验证、上线运维全流程,推动产品按期高质量上线
包括英文材料
学历+
数据结构+
算法+
Linux+
内核+
缓存+
Kubernetes+
C+
C+++
Go+
Git+
Bash+
Python+
脚本+
相关职位

logo of baidu
社招ACG

-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持智驾、AIGC、金融能源、智算中心客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -构建异构多元芯算力底座,支持国产化信创,支持GPU虚拟化和混部调度,提升AI应用资源效率 -无缝对接客户和云上AI开发平台,支持文心和开源大模型训练推理任务部署,提供训练容错和弹性伸缩能力 -对接客户基础设施环境构建异构算力平台解决方案,支持大模型训练/推理ToB交付 -探索业界最新技术方向,参与开源社区,提升百度云原生AI核心竞争力

更新于 2025-03-10
logo of baidu
社招1年以上ACG

-负责云原生产品 Kubernetes 容器引擎、镜像服务、可观测服务等的设计与研发工作,提升产品竞争力及体验 -负责大规模 AI Infra 云原生底座的设计与研发工作,基于云原生技术打造异构多元芯算力底座,支持国产化信创,支持业务进行大规模训练、容错及弹性推理,构建异构多元芯算力底座 -负责打造现代化的云原生智能运维能力,设计和实现覆盖 AI 场景全栈的故障感知、诊断及自愈能力 -持续提升云原生产品服务及基础设施的稳定性,优化服务性能,提升架构的可扩展性 -探索业界最新技术方向,参与开源社区,提升百度云原生核心竞争力

更新于 2025-04-28
logo of bytedance
社招3年以上A96893

1、负责建设面向科学计算场景的、支持高通量任务运行的混合云算力平台; 2、提供基于云原生的弹性资源管理服务,实现对公司内外多种云规格、GPU规格的对接与管理,持续提升集群资源利用率; 3、深度参与AI4S应用产品建设,为业务输出输送高效、灵活的云基础能力支撑。

更新于 2025-06-05
logo of bytedance
实习A159930A

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 1、负责字节跳动计算型、存储型、GPU等定制化服务器产品和自研芯片板级开发验证系统的硬件方案设计,包括各板卡Layout层叠结构、Power拓扑、时钟拓扑、系统管理拓扑设计、主要元器件和连接器选型等; 2、与服务器ODM、芯片设计厂商一起进行服务器主板及板卡的原理图设计、原理图和Layout的审核,在产品研发周期内与ODM厂商一起保障硬件设计质量; 3、负责服务器、板卡、芯片验证系统等产品的电路板原理图、控制逻辑等组件的设计;负责和PI、SI、结构、散热工程师联合设计PCB总体设计,主导PCB审核过程,对原理图、控制逻辑、PCB的设计质量负责; 4、负责硬件电路系统调试、验证工作,输出电路设计的调测计划、调测报告、单元测试(UT)报告输出;与合作伙伴紧密协作完成硬件协同的专业测试、可靠性测试等,并负责相关问题解决; 5、与ODM厂商一起进行相关bug的处理,保障项目高质量完成各阶段转段。跟进服务器整机各板卡PCB&PCBA加工生产,推动生产加工相关问题的解决,与ODM厂商一起完成板卡工厂端功能测试的导入工作,最终推进产品部署和上线。

更新于 2025-02-25