腾讯大模型推理优化研发工程师-算子优化

社招全职2年以上CSIG技术2025-06-17地点：上海状态：招聘

扫码手机上打开

任职要求

1.经验要求:2年以上GPU高性能计算开发经验，有大规模AI模型优化经验者优先；
2.精通CUDA OpenCL等GPU编程语言，熟悉NVIDIA或AMD的底层优化技巧；
3.精通Triton，Cutlass，CK等高性能算子开发工具；
4.熟悉VLLM、SGLang等大模型推理框架，有实际性能调优经验(如KV Cache优化、动态批处理、Attention算子定制等)；
5.扎实的高性能计算基础，熟悉并行计算、内存优化、通信优化等技术；
6.熟练使用C/C…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.参与基于GPU的高性能计算(HPC)项目设计与开发，负责GPU芯片(NVIDIA，AMD等)的底层性能优化与调优；
2.针对大模型推理场景，优化和扩展vLLM、SGLang等框架的核心模块，提升计算效率与资源利用率；
3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等)，设计并实现高性能算子与算法；
4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化、JIT等)，推动AI工程化落地的效率提升。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

CUDA+

OpenCL+

大模型+

性能调优+

C+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理优化研发工程师-算子优化/编译-大模型方向

社招AI技术

1.研发及优化大模型推理引擎、PD分离推理调度系统； 2.优化大模型推理性能，提升吞吐并控制成本； 3.优化大模型推理框架，提升框架易用性和可调试性。

更新于 2025-06-19深圳

【26届实习】深度学习推理/训练引擎研发工程师

实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的推理与训练框架； 2、参与推理框架研发优化，包括算子优化、推理架构优化、异构调度等多种技术研发落地等； 3、参与训练框架研发优化，包括数据读取、分布式训练及微调工具链等AI基础设施的建设等； 4、参与多个业务场景中的模型压缩技术实现，对模型进行轻量化压缩，提高训练/推理效率，支持业务降本增效； 5、与公司各算法部门深度合作，参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效； 6、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

北京|上海

大模型推理/训练引擎研发工程师

校招J1014

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化，包括大模型推理、模型训练框架、微调平台等； 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能，与算法部门合作，为公司大模型定制训练方案，探索RLHF、MoE、多模态、longcontext等前沿方向，提升训练性能； 3、优化推理框架上层调度策略，通过机内、机间的计算任务调度和通讯优化提升引擎性能；优化现有大语言模型相关工具和平台，提高模型训练、维护效率，降低成本，提升训练服务稳定性。

更新于 2025-07-30北京

【26届校招】定制化模型推理与部署研发工程师

校招

【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统，融合先进的人工智能（AI）、控制、机械与系统工程，打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。【关于团队】该部门承担前沿智能方法的预研工作，专注于实现机器人三大核心智能能力：自主移动（导航）、灵巧操作和人机交互。我们深入布局大语言模型（LLM）、多模态视觉语言模型（VLM）和视觉语言行动模型（VLA），实现全流程自研，推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷，聚集了世界一流的科研与工程人才，致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里，你将：与来自 AI、机器人硬件、控制等领域的优秀工程师合作；参与推动 LLM/VLM/VLA 与机器人智能体的融合；构建能够自主学习与进化的“具身智能体”。 - 负责将大规模VLM/VLA模型高效部署于定制化芯片（NPU、TPU、ASIC、FPGA、GPU集群等）； - 通过高效模型架构、推理图编译、算子融合与低延迟优化等方式，提升模型在各类硬件平台下的吞吐与功耗表现； - 设计并实现高性能推理框架，支持如长上下文、视频时空建模、工具调用等复杂功能； - 负责模型压缩与加速（量化INT8/FP8、蒸馏、剪枝、缓存、流式推理等）相关技术方案落地； - 联合芯片及系统团队，优化内存访问、调度策略、通信结构，达成端到端推理性能突破。

更新于 2025-10-22上海|深圳|北京