百度资深异构计算架构师（J84309）

社招全职ACG2025-04-09地点：北京状态：招聘

扫码手机上打开

任职要求

-本科及以上学历，计算机、AI相关专业背景
-熟悉PyTorch、TensorFlow、PaddlePaddle等深度学习框架，熟悉GPU芯片架构，了解Megatron、vLLM等大模型训推框架，有大规模训练推理实践经验者优先
-熟悉推理优化：负载均衡、模型压缩（蒸馏/量化）、缓存策略、异构计算加速等
-熟悉训练优化：分布式训练、显存优化（如Zero/…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

-负责建设业界领先的AI异构算力容器平台，提供高性能、高稳定性、高易用性的混合云产品，支持AIGC、智算中心、智驾、金融能源等客户AI应用高效部署
-负责云原生AI容器相关产品的架构设计和产品研发，引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案
-结合 SOTA 模型训练推理优化原理，深入模型结构与设计思路，将训练推理优化手段工程实践化，为客户提供系统性加速方案，提升训推效率
-针对大规模异构集群场景下，探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用
-探索业界最新技术方向，参与机器学习框架等开源社区，提升百度混合云AI核心竞争力，提升团队技术影响力

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

PyTorch+

TensorFlow+

PaddlePaddle+

深度学习+

Megatron+

vLLM+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-资深系统架构师-AIOS（AI 操作系统）

社招8年以上技术-基础平台

我们正在招募一位具有系统级思维与AI大模型技术前瞻视野的资深系统架构师，共同设计与构建下一代 AI 原生操作系统（AI Operating System, AIOS）。AIOS 是为智能计算时代重新定义的系统平台。它不再只是传统操作系统的资源管理者，而是智能体时代的计算基石，通过深度融合基于大模型的AI 推理、感知、学习与决策能力，让系统能够自我理解、自我优化，并主动协作。您将站在系统软件与人工智能、大模型技术的融合前沿，定义AIOS的核心架构、智能调度体系、AI运行时、AI助手、AI智能体以及人机共生的新一代系统框架。主要职责： 1. 主导 AIOS 的整体架构设计，包括AI原生系统内核层、系统服务层、AI运行时与智能交互层； 2. 设计并实现 AI原生系统内核（AI-native Kernel），将调度、内存与资源管理与AI智能决策引擎深度融合； 3. 构建 AIOS Runtime，支持端侧模型的高效运行、动态加载、分层缓存、在线推理与自适应资源分配； 4. 设计智能调度系统（AI Scheduler），实现跨CPU/GPU/NPU/DSP的异构资源智能优化； 5. 构建 AI Memory & Model Management Framework，支持模型快速热加载、压缩与生命周期管理； 6. 推动系统级智能安全与可信计算机制，确保AI决策链的可解释性与可信度； 7. 与硬件、内核、AI算法、设备驱动与应用生态团队协作，打通跨层架构接口，实现软硬件协同优化； 8. 负责AIOS技术蓝图与架构演进路线规划，推动系统持续演化； 9. 指导高级工程师团队落地架构设计，建立高标准的系统工程文化。

更新于 2026-02-13北京|杭州|上海

阿里云智能-高性能网络资深架构师-北京/杭州

社招10年以上云智能集团

1. 主导RDMA高性能网络架构设计：设计并优化万卡级RDMA网络协议、拓扑，流控技术，支持AllReduce、All-to-All等通信模式，保障吞吐率>90%。联动PyTorch、NCCL等框架，通过RDMA配置、内存注册策略降低CPU干预，提升训练效率。 2. 构建全栈可观测性与智能运维：开发覆盖NIC、交换机、内核层的监控体系，结合ML模型预测拥塞风险，实现故障分钟级定位与恢复。制定拥塞控制算法参数、NUMA绑定等跨平台部署规范，确保异构芯片/多云环境下的网络一致性。 3. 推动技术标准化与生态兼容：主导RDMA网络协议栈（Verbs API、拥塞控制算法，多路径传输协议）的定制化开发，优化驱动与固件性能。评估UCX、eRPC、xLink over ethernet等新技术，制定下一代AI网络演进路线。 4、技术规划 • 理解业务战略及重点，基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-11-14北京|杭州

大模型推理框架研发工程师（高级/资深）(J250514005)

社招技术

1. 主导大模型推理引擎的架构设计与核心模块开发，支撑千亿参数模型的高效分布式推理。 2. 研发面向GPU/NPU等异构计算平台的高性能算子，提升硬件利用效率。 3. 参与模型低精度量化，图优化，编译优化等性能优化工作。 4. 攻克分布式推理中的动态负载均衡、通信优化、显存管理等核心技术难题。 5. 跟踪学术界与工业界前沿技术（如vLLM、TGI、TensorRT-LLM等），推进框架迭代。

更新于 2025-12-02北京

GPU驱动高级/资深/专家工程师

社招3年以上

1.负责xpu的linux内核态或用户态驱动程序的设计开发 2.高性能AI异构计算的性能分析与定位 3.driver相关工具的设计开发

更新于 2024-07-12上海