腾讯大模型训练性能优化工程师（训练算子）（深圳/北京/上海/杭州）

社招全职2年以上公共技术2025-12-24地点：深圳状态：招聘

扫码手机上打开

任职要求

1.计算机、软件工程、数学、电子信息、自动化等相关专业，本科及以上学历；
2.扎实的编程基础，熟练使用 C/C++，对代码质量与工程实践有较高要求；
3.熟练掌握 GPU 编程，有实际 CUDA 开发经验；熟悉 CUTLASS、Triton 等任一或多种算子开发/优化框架；
4.熟悉并行计算原理，对 GPU 体系结构（SM、Warp、Memory Hierarchy、Occupancy 等）有较深入理解；
5.对 3D 并行训练（如数据并行、模型并行、流水并行、混合并行等）有实践经验，能够理解并分析其对算子与通信模式的影响；
6.具备良好的问题定位与性能分析能力，能熟练使用 Nsight、nvprof、p…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责深度学习训练相关算子的设计、实现与优化（ CUDA/CUTLASS/Triton ）；
2.面向大模型训练场景，对算子进行端到端性能分析与调优，持续挖掘吞吐、延迟、显存利用率等指标的优化空间；
3.参与或主导 3D 并行（Data / Tensor / Pipeline Parallel 等）训练体系下的算子与通信方案设计与优化；
4.与分布式训练、系统、模型算法团队密切协作，共同提升大规模训练任务的整体效率与稳定性；
5.跟踪业界前沿的硬件架构与系统软件（GPU 架构、网络、编译器、库等），将最新技术转化为实际性能收益。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

FSDP+

CUDA+

内核+

Triton Inference Server+

性能调优+

Nsight+

NVIDIA Visual Profiler+

C+++

Python+

数据结构+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理/训练优化工程师

校招J1020

1、参与大模型推理/训练优化。通过研发业界领先的AI Compiler 技术，支撑搜推场景在GPU上的训练计算性能优化；支持大模型推理优化技术在异构硬件上的落地； 2、参与各种大模型推理所需的功能性开发任务；相关编译优化功能开发，以图优化、算子融合、GPU高性能算子开发及自动Codegen等技术手段不断推高在不同卡型上的计算性能极限； 3、参与支持日常的大模型推理服务部署，参与内部日常提效工具的研发。

更新于 2025-08-11杭州|深圳|北京

【快Star-X】大模型推理/训练优化工程师

校招J1020

更新于 2025-07-22北京|深圳|杭州

混元大模型训练框架研发工程师-（北京/深圳）

社招TEG技术

1.参与开发优化大模型训练框架，支持单任务万卡以上规模高效稳定训练； 2.参与NLP、多模态大模型结构设计，并联合业务进行模型训练效率和效果验证； 3.参与文生图、文生视频、文生3D等业务的训练性能加速； 4.参与低精度训练性能优化和业务推广、参与大窗口训练性能优化。

更新于 2025-05-26北京

混元大模型训练框架研发工程师-（北京/深圳）

社招5年以上公共技术

更新于 2026-01-12北京