腾讯高性能计算工程师-北京
社招全职5年以上CSIG技术地点:上海状态:招聘
任职要求
1.熟悉NVIDIA CUDA/AMD ROCm编程,具备GPU内核优化经验(如PTX指令调优、显存带宽优化); 2.精通Megatron-LM、DeepSpeed或Colossal-AI等分布式训练框架,有千亿参数模型并行训练实战经验; 3.熟悉大模型训练全流程优化(数据加载、梯度累积、通信压缩等),能通过Profiling工具定位性能瓶颈; 4.优先条件,有DeepSeek系列模型优化经验(如DualPipe调度、MLA注意力优化)或参与过相关开源项目贡献。 加分项 1.通过腾讯云从业资格证或同等资格认证的优先录取。
工作职责
1.参与基于GPU的高性能计算(HPC)项目设计与开发,负责GPU芯片(NVIDIA/AMD等)的底层性能优化与调优; 2.针对大模型推理、训练等场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率; 3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法; 4.与算法训练团队协作,解决分布式推理下模型并行(Model Parallelism)、数据并行(Data Parallelism)等场景下的性能瓶颈问题; 5.探索前沿技术方向(如混合专家模型MoE、动态计算图优化等),推动AI工程化落地的效率提升。
包括英文材料
CUDA+
https://developer.nvidia.com/blog/even-easier-introduction-cuda/
This post is a super simple introduction to CUDA, the popular parallel computing platform and programming model from NVIDIA.
https://www.youtube.com/watch?v=86FAWCzIe_4
Lean how to program with Nvidia CUDA and leverage GPUs for high-performance computing and deep learning.
内核+
https://www.youtube.com/watch?v=C43VxGZ_ugU
I rummage around the Linux kernel source and try to understand what makes computers do what they do.
https://www.youtube.com/watch?v=HNIg3TXfdX8&list=PLrGN1Qi7t67V-9uXzj4VSQCffntfvn42v
Learn how to develop your very own kernel from scratch in this programming series!
https://www.youtube.com/watch?v=JDfo2Lc7iLU
Denshi goes over a simple explanation of what computer kernels are and how they work, alonside what makes the Linux kernel any special.
Megatron+
https://www.youtube.com/watch?v=hc0u4avAkuM
DeepSpeed+
https://www.youtube.com/watch?v=pDGI668pNg0
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
相关职位
校招算法与软件
1. NPU Firmware/运行时库开发与交付; 2. NPU Firmware指令集设计与开发; 3. 参与硅前验证case开发,支持各种仿真平台算子与整网联调; 4. 参与硅后NPU Bringup; 5. 大模型在NPU芯片上量产部署。
社招A167397
1、负责机器学习平台和训推框架的研发,提升GPU利用率; 2、负责高性能计算框架的研发,低功耗算法优化; 3、负责模型结构在不同硬件上压缩、量化、稀疏化,裁剪方面的加速落地; 4、负责算法性能评估和分析,制定技术规划和性能标准,补齐关键竞争力。
更新于 2025-05-29
社招2年以上技术类-开发
● 参与以GPU等AI芯片为基础的高性能计算项目,深度分析GPU硬件体系结构,建设打磨极致的算子优化和显存优化等技术,逼近硬件理论性能峰值,突破大模型训推的显存墙,提升蚂蚁异构计算集群的硬件效率。 ● 针对蚂蚁大模型训推的性能和效率等问题,持续迭代算子库、显存优化技术和工具链,构建AI系统生态。 ● 持续跟踪行业前沿技术,参与开源社区的贡献。
更新于 2025-06-18