logo of tencent

腾讯高性能计算工程师-(深圳)or(北京)or

社招全职5年以上CSIG技术地点:上海状态:招聘

任职要求


1.计算机、人工智能、软件工程等相关专业硕士及以上学历;
2.具备5年以上 AI 系统、高性能计算或底层系统开发经验;
3.具备大规模、生产级大语言模型(LLM)在线推理系统从零到一的架构设计与优化实战经验;
4.精通 C++/Python,具备深厚的系统编程功底,对并行计算、内存管理和性能调优有深入的系统性理解;
5.深入理解 Transformer 架构,具备 vLLM, TensorRT-LLM, LightLLM 等主流推理框架的内核级/源码级深度优化经验;对 KV Cache、低比特量化、连续批处理等核心技术有架构决策能力;
6.具备设计和主导实现高并发、超低延迟分布式服务系统的能力;熟悉 Docker/Kubernetes 等云原生部署运维技术。

加分项
1.有华为昇腾、海光、天数等国产AI芯片平台上的LLM模型移植、底层算子开发或推理引擎适配的战略级成功经验;
2.备多卡/多机通信(N…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.超大规模LLM性能工程: 主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计,负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地;
2.低比特与稀疏模型优化: 牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地,平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案;
3.统一与多模态架构: 定义并设计一套具备长期扩展性的统一 AI 推理引擎架构,以支撑自回归生成任务,并前瞻性地解决多模态大模型(如视觉-语言模型)的协同推理部署挑战;
4.异构算力与国产化适配: 主导推理引擎在国产AI芯片(如昇腾、海光、天数等)平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制,实现跨异构架构的算力自主可控;
5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层,主导设计和实现LLM特有高性能算子。 重点包括:高性能Attention Kernel、矩阵乘法(GEMM)的深度定制与融合、KV Cache读写优化等关键算子;
6.具备深入理解和利用硬件指令集架构(ISA)和微架构(Microarchitecture)的能力, 通过 CUDA/Triton 或国产芯片底层编程语言,进行SIMD/SIMT指令优化、指令级并行(ILP)及寄存器重用等,将LLM推理性能推向硬件理论极限。
包括英文材料
CUDA+
内核+
Megatron+
DeepSpeed+
大模型+
学历+
系统设计+
C+++
Python+
性能调优+
Transformer+
vLLM+
TensorRT+
还有更多 •••
相关职位

logo of bytedance
社招J8R32

1、负责字节跳动各业务场景工程效率方向的开发和落地工作,负责平台产品的架构设计、开发、部署与改进; 2、调研新技术,参与各类技术难题的攻关,沉淀技术能力和行业经验,与平台一起成长和发展; 3、对产品提出改进建议以建立极致的用户感受,对项目提出改进建议以提高项目整体效率;

更新于 2021-08-24深圳
logo of tencent
社招2年以上Venus技术

1.负责大语言模型推理加速引擎一念(https://github.com/Tencent/KsanaLLM)的研发和业务应用,助力业务降本提效; 2.与算法团队、产品团队紧密协作,理解业务需求并提供定制化的高性能计算解决方案; 3.持续跟踪HPC领域的前沿技术,推动新技术在一念的应用与创新; 4.解决高性能计算场景下的复杂技术问题,确保系统的稳定性和可扩展性。

更新于 2026-01-05深圳
logo of tencent
社招3年以上TEG技术

1.基于开源项目 Ray,打造业内领先的通用分布式计算引擎,包括但不限于以下方向:引擎内核(分布式Task调度与执行)、分布式数据处理框架、分布式在线服务编排框架等; 2.面向 Data + AI,支持和拓展以 Ray 为 infra 的多种业务场景,包括但不限于以下方向:数据科学、大模型训练数据管道服务、在线推理与离线推理、AI Agent与应用系统、隐私计算、图计算等; 3.与 K8S 深度融合,建设云原生环境下超大规模分布式系统的服务能力与平台化能力,为业务提供高可用、可扩展、高易用性的集群化服务; 4.参与开源共建与合作,提升团队与个人在业界的影响力。

更新于 2025-06-09北京
logo of weride
校招其他

PNC组介绍:在自动驾驶系统中,决策规划与控制可以类比为人类的大脑与神经。确保“大脑与神经”正确高效地“思考”和安全舒适地“执行”,是一个优秀的规划与控制组的职责所在。规划控制团队分为决策团队、规划团队和控制团队。决策规划部门的主要目的是在复杂的无人驾驶环境中找到安全的行驶方案,例如通过人类驾驶的数据分析何时进行变道,对前方车辆是跟随还是绕行。决策规划部分还要从路上的真实数据中学习人类驾驶的共识,比如道路拥堵时到底什么时候能变道,后车要怎么表达出它是否让行,进而思考如何把这种共识应用到具体算法中。此外,决策规划要能将不同的未来收敛到当选确定的行为中。控制部分则是负责将上述的行为严格地执行到车辆上。 latency一直是规划与控制团队希望一直提升的一个保证安全的关键性指标。我们希望能够发挥车载硬件的所有性能来达成目标,包括cpu、gpu、各级cache等等。我们团队希望有GPU背景的同事来加入我们面对未来车载硬件算力往gpu迁移这个大趋势的的挑战。你将会和规划与控制的其他工程师一起,开发出下一代高并行度,高性能的规划算法。

更新于 2025-06-19北京|深圳|广州