logo of tencent

腾讯高性能计算工程师-北京

社招全职5年以上CSIG技术地点:上海状态:招聘

任职要求


1.熟悉NVIDIA CUDA/AMD ROCm编程,具备GPU内核优化经验(如PTX指令调优、显存带宽优化);
2.精通Megatron-LM、DeepSpeed或Colossal-AI等分布式训练框架,有千亿参数模型并行训练实战经验;
3.熟悉大模型训练全流程优化(数据加载、梯度累积、通信压缩等),能通过Profiling工具定位性能瓶颈;
4.优先条件,有DeepSeek系列模型优化经验(如DualPipe调度、MLA注意力优化)或参与过相关开源项目贡献。

加分项
1.通过腾讯云从业资格证或同等资格认证的优先录取。

工作职责


1.参与基于GPU的高性能计算(HPC)项目设计与开发,负责GPU芯片(NVIDIA/AMD等)的底层性能优化与调优;
2.针对大模型推理、训练等场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率;
3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法;
4.与算法训练团队协作,解决分布式推理下模型并行(Model Parallelism)、数据并行(Data Parallelism)等场景下的性能瓶颈问题;
5.探索前沿技术方向(如混合专家模型MoE、动态计算图优化等),推动AI工程化落地的效率提升。
包括英文材料
CUDA+
内核+
Megatron+
DeepSpeed+
大模型+
相关职位

logo of liauto
校招算法与软件

1. NPU Firmware/运行时库开发与交付; 2. NPU Firmware指令集设计与开发; 3. 参与硅前验证case开发,支持各种仿真平台算子与整网联调; 4. 参与硅后NPU Bringup; 5. 大模型在NPU芯片上量产部署。

logo of bytedance
社招A167397

1、负责机器学习平台和训推框架的研发,提升GPU利用率; 2、负责高性能计算框架的研发,低功耗算法优化; 3、负责模型结构在不同硬件上压缩、量化、稀疏化,裁剪方面的加速落地; 4、负责算法性能评估和分析,制定技术规划和性能标准,补齐关键竞争力。

更新于 2025-05-29
logo of antgroup
社招2年以上技术类-开发

● 参与以GPU等AI芯片为基础的高性能计算项目,深度分析GPU硬件体系结构,建设打磨极致的算子优化和显存优化等技术,逼近硬件理论性能峰值,突破大模型训推的显存墙,提升蚂蚁异构计算集群的硬件效率。 ● 针对蚂蚁大模型训推的性能和效率等问题,持续迭代算子库、显存优化技术和工具链,构建AI系统生态。 ● 持续跟踪行业前沿技术,参与开源社区的贡献。

更新于 2025-06-18
logo of tencent
社招2年以上Venus技术

1.负责大语言模型推理加速引擎一念(https://github.com/Tencent/KsanaLLM)的研发和业务应用,助力业务降本提效; 2.与算法团队、产品团队紧密协作,理解业务需求并提供定制化的高性能计算解决方案; 3.持续跟踪HPC领域的前沿技术,推动新技术在一念的应用与创新; 4.解决高性能计算场景下的复杂技术问题,确保系统的稳定性和可扩展性。

更新于 2025-09-11