腾讯高性能计算工程师-北京
社招全职5年以上CSIG技术地点:上海状态:招聘
任职要求
1.熟悉NVIDIA CUDA/AMD ROCm编程,具备GPU内核优化经验(如PTX指令调优、显存带宽优化); 2.精通Megatron-LM、DeepSpeed或Colossal-AI等分布式训练框架,有千亿参数模型并行训练实战经验; 3.熟悉大模型训练全流…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.参与基于GPU的高性能计算(HPC)项目设计与开发,负责GPU芯片(NVIDIA/AMD等)的底层性能优化与调优; 2.针对大模型推理、训练等场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率; 3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法; 4.与算法训练团队协作,解决分布式推理下模型并行(Model Parallelism)、数据并行(Data Parallelism)等场景下的性能瓶颈问题; 5.探索前沿技术方向(如混合专家模型MoE、动态计算图优化等),推动AI工程化落地的效率提升。
包括英文材料
CUDA+
https://developer.nvidia.com/blog/even-easier-introduction-cuda/
This post is a super simple introduction to CUDA, the popular parallel computing platform and programming model from NVIDIA.
https://www.youtube.com/watch?v=86FAWCzIe_4
Lean how to program with Nvidia CUDA and leverage GPUs for high-performance computing and deep learning.
内核+
https://www.youtube.com/watch?v=C43VxGZ_ugU
I rummage around the Linux kernel source and try to understand what makes computers do what they do.
https://www.youtube.com/watch?v=HNIg3TXfdX8&list=PLrGN1Qi7t67V-9uXzj4VSQCffntfvn42v
Learn how to develop your very own kernel from scratch in this programming series!
https://www.youtube.com/watch?v=JDfo2Lc7iLU
Denshi goes over a simple explanation of what computer kernels are and how they work, alonside what makes the Linux kernel any special.
还有更多 •••
相关职位
校招算法与软件
1. NPU Firmware/运行时库开发与交付; 2. NPU Firmware指令集设计与开发; 3. 参与硅前验证case开发,支持各种仿真平台算子与整网联调; 4. 参与硅后NPU Bringup; 5. 大模型在NPU芯片上量产部署。
北京
社招A167397
1、负责机器学习平台和训推框架的研发,提升GPU利用率; 2、负责高性能计算框架的研发,低功耗算法优化; 3、负责模型结构在不同硬件上压缩、量化、稀疏化,裁剪方面的加速落地; 4、负责算法性能评估和分析,制定技术规划和性能标准,补齐关键竞争力。
更新于 2025-05-29北京
社招2年以上技术类-开发
● 参与以GPU等AI芯片为基础的高性能计算项目,深度分析GPU硬件体系结构,建设打磨极致的算子优化和显存优化等技术,逼近硬件理论性能峰值,突破大模型训推的显存墙,提升蚂蚁异构计算集群的硬件效率。 ● 针对蚂蚁大模型训推的性能和效率等问题,持续迭代算子库、显存优化技术和工具链,构建AI系统生态。 ● 持续跟踪行业前沿技术,参与开源社区的贡献。
更新于 2025-12-01北京|杭州