logo of baidu

百度AI计算通信加速研发工程师(J82762)

社招全职ACG地点:北京 | 深圳状态:招聘

任职要求


-熟悉AI计算基本模式与AI集群设计构建;
-了解流行的AI训推框架(如Megatron、sglang等)与大模型(如LLAMA、DeepSeek等);
-熟悉RDMA等高性能网络技术和NCCL、NVSHMEM等通信库;
-有集群管理、运维相关的研发经验。

工作职责


-负责百度AI计算集群高性能通信库研发工作
-负责百度AI计算集群训推框架通信优化工作
-负责百度AI计算集群通信性能与可用性诊断工作
-负责百度AI计算集群与通信关联的其他软件研发与维护工作
包括英文材料
Megatron+
大模型+
相关职位

logo of baidu
社招ACG

-负责百度百舸AI集群的需求定义 -负责百度百舸AI集群的交付验证 -负责百度百舸AI集群的问题定位 -负责百度百舸AI集群的相关工具研发

更新于 2025-02-24
logo of baidu
社招ACG

-负责百度百舸AI集群的需求定义 -负责百度百舸AI集群的交付验证 -负责百度百舸AI集群的问题定位 -负责百度百舸AI集群的相关工具研发

更新于 2024-12-04
logo of baidu
社招ACG

-负责百度百舸AI集群的需求定义 -负责百度百舸AI集群的交付验证 -负责百度百舸AI集群的问题定位 -负责百度百舸AI集群的相关工具研发

更新于 2024-11-29
logo of baidu
实习ACG

-负责百度AI计算集群网络性能相关的诊断与优化 -负责百度AI计算集群通信库研发与运维部署 -负责百度AI计算中训练、推理依赖的通信加速 -负责百度AI计算集群与通信关联的其他软件研发工作

更新于 2025-04-07