携程AI Infra 研发工程师（GPU 推理方向）(MJ034962)

社招全职1年以上住宿业务AI & BI2026-06-17地点：上海状态：招聘

扫码手机上打开

任职要求

计算机及相关专业本科及以上学历，1 年以上 GPU / 高性能计算 / 深度学习推理相关研发经验。熟悉 CUDA 编程基础，了解 GPU 体系架构（SM、Warp、Memory Hierarchy、Tensor Core），具备编写和优化 CUDA kernel 的实践经验。熟悉至少一种主流深度学习推理框架（TensorRT / ONNX Runtime / TVM / Triton Inference Server），了解图优化、算子融合、量化等基本原理。了解主流推荐模型（DLRM、DIN、生成式推荐等）或 Transformer 类模型的结构与推理特点，对模型性能瓶颈有一定认识。熟练使用 c++/python/java等至少一种语言，熟悉 Linux 开发环境，代码…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

参与推荐系统 GPU 推理引擎的研发工作，支撑生成式推荐、排序、召回等业务场景的在线推理服务落地。参与 CUDA 算子开发与优化，包括算子融合、量化（INT8/FP8）、Tensor Core 使用、显存与访存优化等方向，持续提升单卡吞吐与推理延迟表现。参与推理图优化工作，基于 TensorRT / ONNX Runtime / TVM / Triton 等主流框架完成模型的图变换、算子替换、kernel 调优，协助推动模型高效上线。针对推荐模型的特点（稀疏 Embedding、变长序列、多塔结构等），协助完成定制化推理方案的开发与调优，解决 Host-Device 传输、KV Cache 管理等性能瓶颈。参与性能 profiling 与调优工作，熟练使用 Nsight、CUPTI 等工具完成性能分析，配合算法团队完成模型结构的性能评估。关注 GPU 推理、LLM Serving、推荐系统 Infra 的业界前沿进展（vLLM、SGLang、FlashAttention 等），积极学习并参与新技术在团队内的落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

深度学习+

CUDA+

内核+

TensorRT+

ONNX+

Triton Inference Server+

Transformer+

C+++

还有更多 •••

登录查看完整学习资料