logo of baidu

百度深度学习分布式通讯库专家(J83253)

社招全职5年以上ACG地点:北京 | 上海状态:招聘

任职要求


-计算机相关专业
-有5年以上深度学习分布式训练经验 
-熟悉RDMA、IB底层原理和应用 
-熟悉NCCL或相关通讯库开发经验

工作职责


-设计和实现昆仑芯通信库,支持千卡以上大模型训练 
-分析&定位大模型训练过程中相关网络问题,快速定位故障和恢复 
-调研下一代互连结构&方案
-指导新一代芯片互连设计
包括英文材料
深度学习+
相关职位

logo of eleme
社招3年以上技术类-开发

1. 负责大数据部门算法工程、数据产品、大数据工具相关的后端研发工作; 2. 参与发掘和分析业务需求,进行系统核心方案设计; 3. 参与核心代码编写,确保性能、质量和安全; 4. 参与生产环境维护,确保系统可用性。

更新于 2025-07-28
logo of baidu
校招AIDU项目

-负责主流AI模型对昆仑AI芯片的适配和性能优化工作; -探索昆仑AI芯片分布式训练、推理方案,解决芯片互联、通讯库等关键问题; -探索新一代昆仑AI芯片编程模型、硬件Spec等关键问题。

更新于 2025-05-19
logo of kuaishou
校招J1020

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能。与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-06-24
logo of kuaishou
实习J1020

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能。与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-06-04