logo of tencent

腾讯大模型训练性能优化工程师(训练算子)(深圳/北京/上海/杭州)

社招全职2年以上公共技术地点:深圳状态:招聘

任职要求


1.计算机、软件工程、数学、电子信息、自动化等相关专业,本科及以上学历;
2.扎实的编程基础,熟练使用 C/C++,对代码质量与工程实践有较高要求;
3.熟练掌握 GPU 编程,有实际 CUDA 开发经验;熟悉 CUTLASS、Triton 等任一或多种算子开发/优化框架;
4.熟悉并行计算原理,对 GPU 体系结构(SM、Warp、Memory Hierarchy、Occupancy 等)有较深入理解;
5.对 3D 并行训练(如数据并行、模型并行、流水并行、混合并行等)有实践经验,能够理解并分析其对算子与通信模式的影响;
6.具备良好的问题定位与性能分析能力,能熟练使用 Nsightnvprof、p…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责深度学习训练相关算子的设计、实现与优化( CUDA/CUTLASS/Triton );
2.面向大模型训练场景,对算子进行端到端性能分析与调优,持续挖掘吞吐、延迟、显存利用率等指标的优化空间;
3.参与或主导 3D 并行(Data / Tensor / Pipeline Parallel 等)训练体系下的算子与通信方案设计与优化;
4.与分布式训练、系统、模型算法团队密切协作,共同提升大规模训练任务的整体效率与稳定性;
5.跟踪业界前沿的硬件架构与系统软件(GPU 架构、网络、编译器、库等),将最新技术转化为实际性能收益。
包括英文材料
FSDP+
CUDA+
内核+
Triton Inference Server+
性能调优+
Nsight+
NVIDIA Visual Profiler+
C+++
Python+
数据结构+
算法+
还有更多 •••
相关职位

logo of kuaishou
社招D7198

1.参与AI与GPU相关项目的性能优化与研发,通过利用并行计算优化、架构优化、量化优化和异构调度等高性能优化技术,研发行业领先的高性能异构AI优化技术与编译优化技术; 2.针对搜广推、音视频以及大模型场景,优化大模型训练和推理场景的性能; 3.与公司各算法部门深度合作,对重点项目进行算法与系统的联合优化。

更新于 2025-04-10北京
logo of tencent
社招AI技术

1.研发及优化大模型推理引擎、PD分离推理调度系统; 2.优化大模型推理性能,提升吞吐并控制成本; 3.优化大模型推理框架,提升框架易用性和可调试性。

更新于 2025-06-19深圳
logo of tencent
社招5年以上CSIG技术

1.研发和优化针对AI训练推理场景的通信组件,提升AI训练推理性能; 2.优化或扩展vLLM、SGLang等推理框架的通信相关模块,提升推理效率。

更新于 2025-10-10深圳
logo of tencent
社招3年以上TEG技术

1.通信算子开发:设计和实现大模型训练/推理场景下的高效集合通信算子(AllReduce、AllGather、ReduceScatter、AllToAll等); 2.通信计算融合:设计通信与计算的overlap策略,实现计算通信并行,提升大模型整体训练/推理性能; 3.通信性能调优:针对不同硬件平台(GPU、NPU等)进行算子性能分析和优化,解决性能瓶颈问题; 4.参与AI通信库整体架构设计,制定技术方案和开发规范。

更新于 2025-06-05深圳