腾讯大模型推理引擎研发工程师（深圳/北京/上海/杭州）

社招全职3年以上公共技术2025-12-28地点：北京状态：招聘

扫码手机上打开

任职要求

1.熟练掌握C/C++、Python编程语言，具备良好的coding和调试能力；
2.熟悉GPU/AI芯片编程，如CUDA，OpenCL，Ascend C等，熟悉cutlass等加速库是加分项；
3.熟悉主流大模型推理框架，如vllm，sglang，tensorrt-llm，FasterFransformer等；
4.熟悉各类深度学习网络和算子底层实现细节，训练和推理模型调试、…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.研发及优化大模型推理引擎、PD分离推理调度系统；
2.支持主流GPU和异构AI芯片，优化大模型推理性能，打造极致性能成本优势。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Python+

CUDA+

OpenCL+

还有更多 •••

登录查看完整学习资料

相关职位

混元大模型推理研发高级工程师（深圳/北京/上海/杭州）

社招1年以上公共技术

1.配合算法工程师，推动深度学习相关算法的落地，打造高吞吐、低延时的推理系统； 2.优化大模型推理性能，提升吞吐并控制成本； 3.优化大模型推理框架，提升框架易用性和可调试性。

更新于 2025-12-18深圳

腾讯PCG AI Infra团队-高性能计算工程师（深圳/北京/上海）-高性能计算

社招2年以上Venus技术

1.负责大语言模型推理加速引擎一念(https://github.com/Tencent/KsanaLLM)的研发和业务应用，助力业务降本提效； 2.与算法团队、产品团队紧密协作，理解业务需求并提供定制化的高性能计算解决方案； 3.持续跟踪HPC领域的前沿技术，推动新技术在一念的应用与创新； 4.解决高性能计算场景下的复杂技术问题，确保系统的稳定性和可扩展性。

更新于 2026-01-05深圳

分布式计算研发工程师-Ray（深圳/北京/上海）

社招3年以上TEG技术

1.基于开源项目 Ray，打造业内领先的通用分布式计算引擎，包括但不限于以下方向：引擎内核（分布式Task调度与执行）、分布式数据处理框架、分布式在线服务编排框架等； 2.面向 Data + AI，支持和拓展以 Ray 为 infra 的多种业务场景，包括但不限于以下方向：数据科学、大模型训练数据管道服务、在线推理与离线推理、AI Agent与应用系统、隐私计算、图计算等； 3.与 K8S 深度融合，建设云原生环境下超大规模分布式系统的服务能力与平台化能力，为业务提供高可用、可扩展、高易用性的集群化服务； 4.参与开源共建与合作，提升团队与个人在业界的影响力。

更新于 2025-06-09北京

AIGC模型推理引擎工程师-智能创作（北京/上海/杭州/深圳）

社招A208771

1、负责LLM/VLM/SD等模型推理优化加速、推理引擎和框架研发，服务于字节跳动内部业务； 2、通过编译优化、并行计算优化、图融合、高效CUDA算子开发、低精度计算、流式推理、投机采样、高并发服务请求优化等高性能优化技术打造业界领先的大模型推理引擎； 3、与公司各算法部门深度合作，分析业务性能瓶颈，对大模型进行性能分析与优化，投入大模型工具链开发及技术生态的建设。

更新于 2024-03-18北京