腾讯腾讯PCG AI Infra团队-高性能计算工程师（深圳/北京/上海）-高性能计算

社招全职2年以上Venus技术2026-01-05地点：深圳状态：招聘

扫码手机上打开

任职要求

1.计算机相关专业本科及以上学历，2年以上高性能计算相关工作经验；
2.熟练掌握C++/Python等编程语言，有大规模并行计算或分布式系统开发经验；
3.深入理解计算机体系结构、并行计算原理，熟悉Nvidia GPU/NPU加速技术；
4.具备Linux系统下的高性能调优经验，熟悉常见性能分析工具…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责大语言模型推理加速引擎一念(https://github.com/Tencent/KsanaLLM)的研发和业务应用，助力业务降本提效；
2.与算法团队、产品团队紧密协作，理解业务需求并提供定制化的高性能计算解决方案；
3.持续跟踪HPC领域的前沿技术，推动新技术在一念的应用与创新；
4.解决高性能计算场景下的复杂技术问题，确保系统的稳定性和可扩展性。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+++

Python+

分布式系统+

还有更多 •••

登录查看完整学习资料

相关职位

分布式计算研发工程师-Ray（深圳/北京/上海）

社招3年以上TEG技术

1.基于开源项目 Ray，打造业内领先的通用分布式计算引擎，包括但不限于以下方向：引擎内核（分布式Task调度与执行）、分布式数据处理框架、分布式在线服务编排框架等； 2.面向 Data + AI，支持和拓展以 Ray 为 infra 的多种业务场景，包括但不限于以下方向：数据科学、大模型训练数据管道服务、在线推理与离线推理、AI Agent与应用系统、隐私计算、图计算等； 3.与 K8S 深度融合，建设云原生环境下超大规模分布式系统的服务能力与平台化能力，为业务提供高可用、可扩展、高易用性的集群化服务； 4.参与开源共建与合作，提升团队与个人在业界的影响力。

更新于 2025-06-09北京

高性能计算工程师-(深圳)or(北京)or

社招5年以上CSIG技术

1.超大规模LLM性能工程：主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计，负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地； 2.低比特与稀疏模型优化：牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地，平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案； 3.统一与多模态架构：定义并设计一套具备长期扩展性的统一 AI 推理引擎架构，以支撑自回归生成任务，并前瞻性地解决多模态大模型（如视觉-语言模型）的协同推理部署挑战； 4.异构算力与国产化适配：主导推理引擎在国产AI芯片（如昇腾、海光、天数等）平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制，实现跨异构架构的算力自主可控； 5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层，主导设计和实现LLM特有高性能算子。重点包括：高性能Attention Kernel、矩阵乘法（GEMM）的深度定制与融合、KV Cache读写优化等关键算子； 6.具备深入理解和利用硬件指令集架构（ISA）和微架构（Microarchitecture）的能力，通过 CUDA/Triton 或国产芯片底层编程语言，进行SIMD/SIMT指令优化、指令级并行（ILP）及寄存器重用等，将LLM推理性能推向硬件理论极限。

更新于 2025-12-09上海

大模型训练性能优化工程师（训练算子）（深圳/北京/上海/杭州）

社招2年以上公共技术

1.负责深度学习训练相关算子的设计、实现与优化（ CUDA/CUTLASS/Triton ）； 2.面向大模型训练场景，对算子进行端到端性能分析与调优，持续挖掘吞吐、延迟、显存利用率等指标的优化空间； 3.参与或主导 3D 并行（Data / Tensor / Pipeline Parallel 等）训练体系下的算子与通信方案设计与优化； 4.与分布式训练、系统、模型算法团队密切协作，共同提升大规模训练任务的整体效率与稳定性； 5.跟踪业界前沿的硬件架构与系统软件（GPU 架构、网络、编译器、库等），将最新技术转化为实际性能收益。

更新于 2025-12-24深圳

异构编译器研发工程师（深圳/北京/上海）

社招2年以上大数据(数据计算

1.针对各类推理场景，负责GPU/AI芯片底层性能优化与调优； 2.优化和扩展vLLM、SGLang、PyTorch等框架的核心模块，提升计算效率与资源利用率； 3.深入分析GPU/AI芯片的硬件架构特性，设计并实现高性能算子、算法和特性使能组件； 4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化等)。

更新于 2026-03-26北京