logo of tencent

腾讯大模型训练框架研发工程师-精调/蒸馏方向

社招全职3年以上CSIG技术地点:上海状态:招聘

任职要求


1.计算机科学、数学、电子工程等相关专业硕士及以上学历,3年以上深度学习框架或工具链开发经验,精通Python,熟练使用C++;
2.有Megatron-LM、DeepSpeed等开源框架使用或二次开发经验,理解分布式训练、显存优化技术;
3.熟悉强化学习(RL)、知识蒸馏、模型压缩等算法原理,具备相关模块开发经验;
4.熟悉CUDA编程、高性能计算优化(如算子融合、通信优化)者优先;
5.熟悉NCCL、MPI等集合通信算法者优先;
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.框架开发与优化:负责强化学习、模型精调、知识蒸馏等核心模块的设计与开发,提升框架的训练效率与易用性;
2.分布式训练支持:基于Megatron-LM、DeepSpeed等工具,优化大模型分布式训练策略(数据并行/张量并行/流水并行/专家并行等),解决显存、通信与计算瓶颈;
3.工具链构建:参与开发轻量化训练框架(如LLama-Factory、swift),支持快速模型微调、部署及多硬件平台适配;
4.前沿技术探索:跟踪学术动态(如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等),将最新研究成果转化为框架功能,提升产品竞争力;
5.协作与文档:与产品团队紧密配合,提供框架级解决方案;编写技术文档与案例,赋能公有云客户。
包括英文材料
学历+
深度学习+
Python+
C+++
Megatron+
DeepSpeed+
强化学习+
算法+
还有更多 •••
相关职位

logo of netease
社招3-5年网易游戏(互娱)

1. 负责多模态大模型(涵盖图像、视频、音频、文本等模态)在内容安全、活体检测、人脸识别、内容理解等场景的算法研发与性能优化; 2. 探索和实现图像、视频、文本等多模态数据的统一建模与高效表征学习,提升模型在内容审核、短视频内容理解等任务中的泛化性和鲁棒性; 3. 紧密跟进与研究业界领先的大模型技术,如InternVL3、Qwen2.5-VL等,探索并落地其在图文审核、视频内容审核、身份核验等业务场景中的应用策略及精调方法; 4. 负责构建并持续优化模型训练及推理系统,显著提升多模态模型在安全审核领域的准确率、召回率与实时响应性能; 5. 探索并实现文本生成图像技术在内容生成与审核中的应用,提升系统的生成与理解能力; 6. 与产品、工程等相关团队密切合作,推动多模态审核、识别系统的业务落地,实现业务场景的闭环验证与持续迭代优化。

更新于 2025-07-25广州
logo of baidu
社招MEG

- 负责垂类语言模型的研发及LLM底座的精调迭代。 - 负责开放域角色对话系统的开发、优化与维护。 - 负责基于深度学习的内容推荐系统迭代与优化。 - 负责基于扩散模型的图片,视频生成系统的迭代与优化。

更新于 2025-05-15上海
logo of meituan
社招2年以上核心本地商业-基

1. 负责大模型在客服业务场景下关键能力的应用研发,包括但不限于知识和指令遵循、深度推理、反思和评估等能力的优化和落地。 2. 负责多模态大模型的应用实践,特别是语音文本融合的多模态大模型的应用。 3. 研发和优化智能体的function call、多智能体间协调,使其能够高效、准确地调用内部和外部工具,扩展智能体的应用边界。 4. 深入理解本地生活服务业务场景,抽象业务所需的大模型基础能力深度优化,推动相关技术在实际业务中的应用。 5. 与工程团队紧密合作,推动算法模型的工程化落地,包括模型压缩、加速、部署和监控等环节。 6. 紧密跟踪业界前沿技术,结合业务需求进行预研和技术储备,保持团队的技术竞争力。

更新于 2025-07-21北京|上海
logo of tencent
社招3年以上混元-模型算法技

1.负责大语言模型(LLM)代码理解和生成相关的技术研究,提升大模型的代码基础能力; 2.跟进大模型代码领域的前沿技术,将其应用于研发生产中,持续提升大模型的代码能力; 3.负责大模型的代码相关的数据构建、训练调优及评测迭代,推进大模型技术在代码补全,Text2SQL,代码问答,代码Agent等业务场景落地。

更新于 2026-01-15深圳