logo of tencent

腾讯大模型推理优化研发工程师-算子优化

社招全职2年以上CSIG技术地点:上海状态:招聘

任职要求


1.经验要求:2年以上GPU高性能计算开发经验,有大规模AI模型优化经验者优先;
2.精通CUDA OpenCL等GPU编程语言,熟悉NVIDIA或AMD的底层优化技巧;
3.精通Triton,Cutlass,CK等高性能算子开发工具;
4.熟悉VLLM、SGLang等大模型推理框架,有实际性能调优经验(如KV Cache优化、动态批处理、Attention算子定制等);
5.扎实的高性能计算基础,熟悉并行计算、内存优化、通信优化等技术;
6.熟练使用C/C++Python,具备良好的算法设计与代码实现能力;
7.熟悉Attention结构MHA/MQA/GQA/MLA,以及MOE结构。

加分项
1.熟悉DeepSeek系列模型的工程优化技术,包括但不限于PD分离、MLA、MOE负载均衡、MTP等有TensorRT、VLLM、SGLang、Triton Inference Server、MLIR/LLVM等编译优化工具链的实际项目经验;
2.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。

工作职责


1.参与基于GPU的高性能计算(HPC)项目设计与开发,负责GPU芯片(NVIDIA,AMD等)的底层性能优化与调优;
2.针对大模型推理场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率;
3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法;
4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化、JIT等),推动AI工程化落地的效率提升。
包括英文材料
CUDA+
OpenCL+
大模型+
性能调优+
C+
C+++
Python+
算法+
TensorRT+
LLVM+
相关职位

logo of tencent
社招AI技术

1.研发及优化大模型推理引擎、PD分离推理调度系统; 2.优化大模型推理性能,提升吞吐并控制成本; 3.优化大模型推理框架,提升框架易用性和可调试性。

更新于 2025-06-19
logo of xiaohongshu
实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的推理与训练框架; 2、参与推理框架研发优化,包括算子优化、推理架构优化、异构调度等多种技术研发落地等; 3、参与训练框架研发优化,包括数据读取、分布式训练及微调工具链等AI基础设施的建设等; 4、参与多个业务场景中的模型压缩技术实现,对模型进行轻量化压缩,提高训练/推理效率,支持业务降本增效; 5、与公司各算法部门深度合作,参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效; 6、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

logo of kuaishou
校招J1014

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能,与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-07-30
logo of kuaishou
校招J1020

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能。与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-06-24