百度大模型训练引擎研发工程师(J97120)
社招全职ACG地点:北京 | 上海 | 深圳状态:招聘
任职要求
-本科及以上学历,计算机科学、人工智能或相关专业 -熟悉C++或Python编程,具备良好的代码规范与开发习惯 -熟悉深度学习框架、分布式计算、并…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-负责大模型训练引擎的架构设计与核心模块开发,确保系统的高性能与可扩展性 -优化训练引擎的分布式计算能力,提升大规模数据训练的效率与稳定性 -研究和实现先进的模型架构与训练算法,并将其集成到训练引擎中 -解决训练引擎在实际应用中的性能瓶颈问题,从算子/并行/通信/显存等多维度,持续改进系统性能
包括英文材料
学历+
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
还有更多 •••
相关职位
社招D13917
参与快手大语言/多模态基座模型、业务应用的研发,工作内容包括: 1、深度参与多模态/大语言模型训练全链路开发,包括数据、预训练、后训练全流程优化; 2、设计和优化分布式训练框架,通过混合并行,通信计算overlap、低精度训练等方法解决超长序列、超大规模moe场景下的训练效率问题; 3、参与通用高性能RL框架的开发和优化; 4、算法工程co-design,探索最优的训练范式。
更新于 2025-07-17北京
校招J1014
1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能,与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。
更新于 2025-07-30北京
实习引擎
工作职责: 1、参与千亿级大模型的分布式强化学习 RL 训练框架研发,提升百卡~千卡级训练吞吐与资源利用率 2、参与 100B以上多模态强化学习算法流程适配(如DAPO等),各领域任务的 RL 正确性验证 3、实验并调优不同并行策略(Tensor/ZeRO/FSDP/Pipeline Parallelism)在超大规模模型上的最佳配置组合 4、协助定位分析分布式训练中的关键性能瓶颈(如GPU利用率低、显存瓶颈、网络通信阻塞、I/O延迟等),设计并实施优化方案进行验证。 5、参与研发/优化训练引擎的关键特性,如大规模集群下的稳定断点续训、高性能异步Rollout机制、以及高性能算子(Kernel)的集成与优化。
北京|上海