百度大模型训练引擎研发工程师（J97120）

社招全职ACG2026-02-12地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

-本科及以上学历，计算机科学、人工智能或相关专业
-熟悉C++或Python编程，具备良好的代码规范与开发习惯
-熟悉深度学习框架、分布式计算、并…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

-负责大模型训练引擎的架构设计与核心模块开发，确保系统的高性能与可扩展性
-优化训练引擎的分布式计算能力，提升大规模数据训练的效率与稳定性
-研究和实现先进的模型架构与训练算法，并将其集成到训练引擎中
-解决训练引擎在实际应用中的性能瓶颈问题，从算子/并行/通信/显存等多维度，持续改进系统性能

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+++

Python+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

大模型训练引擎研发工程师

社招D13917

参与快手大语言/多模态基座模型、业务应用的研发，工作内容包括： 1、深度参与多模态/大语言模型训练全链路开发，包括数据、预训练、后训练全流程优化; 2、设计和优化分布式训练框架，通过混合并行，通信计算overlap、低精度训练等方法解决超长序列、超大规模moe场景下的训练效率问题； 3、参与通用高性能RL框架的开发和优化； 4、算法工程co-design，探索最优的训练范式。

更新于 2025-07-17北京

大模型推理/训练引擎研发工程师

校招J1014

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化，包括大模型推理、模型训练框架、微调平台等； 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能，与算法部门合作，为公司大模型定制训练方案，探索RLHF、MoE、多模态、longcontext等前沿方向，提升训练性能； 3、优化推理框架上层调度策略，通过机内、机间的计算任务调度和通讯优化提升引擎性能；优化现有大语言模型相关工具和平台，提高模型训练、维护效率，降低成本，提升训练服务稳定性。

更新于 2025-07-30北京

大模型分布式训练引擎研发工程师（实习）

实习引擎

工作职责： 1、参与千亿级大模型的分布式强化学习 RL 训练框架研发，提升百卡~千卡级训练吞吐与资源利用率 2、参与 100B以上多模态强化学习算法流程适配（如DAPO等），各领域任务的 RL 正确性验证 3、实验并调优不同并行策略（Tensor/ZeRO/FSDP/Pipeline Parallelism）在超大规模模型上的最佳配置组合 4、协助定位分析分布式训练中的关键性能瓶颈（如GPU利用率低、显存瓶颈、网络通信阻塞、I/O延迟等），设计并实施优化方案进行验证。 5、参与研发/优化训练引擎的关键特性，如大规模集群下的稳定断点续训、高性能异步Rollout机制、以及高性能算子（Kernel）的集成与优化。

北京|上海

深度学习训练引擎研发工程师（实习）

实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的训练框架； 2、参与训练框架研发优化，包括分布式训练及微调工具链、训练性能优化、数据读取等AI基础设施的建设等； 3、与公司各算法部门深度合作，参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效； 4、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

北京