logo of tencent

腾讯大模型推理优化研发工程师-算子优化

社招全职2年以上CSIG技术地点:上海状态:招聘

任职要求


1.经验要求:2年以上GPU高性能计算开发经验,有大规模AI模型优化经验者优先;
2.精通CUDA OpenCL等GPU编程语言,熟悉NVIDIA或AMD的底层优化技巧;
3.精通Triton,Cutlass,CK等高性能算子开发工具;
4.熟悉VLLM、SGLang等大模型推理框架,有实际性能调优经验(如KV Cache优化、动态批处理、Attention算子定制等);
5.扎实的高性能计算基础,熟悉并行计算、内存优化、通信优化等技术;
6.熟练使用C/C
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.参与基于GPU的高性能计算(HPC)项目设计与开发,负责GPU芯片(NVIDIA,AMD等)的底层性能优化与调优;
2.针对大模型推理场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率;
3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法;
4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化、JIT等),推动AI工程化落地的效率提升。
包括英文材料
CUDA+
OpenCL+
大模型+
性能调优+
C+
还有更多 •••
相关职位

logo of tencent
社招AI技术

1.研发及优化大模型推理引擎、PD分离推理调度系统; 2.优化大模型推理性能,提升吞吐并控制成本; 3.优化大模型推理框架,提升框架易用性和可调试性。

更新于 2025-06-19深圳
logo of antgroup
社招3年以上技术类-开发

我们是蚂蚁集团网络技术团队,为蚂蚁集团全站提供通智一体、稳定高效的网络基础设施产品、平台和服务。 ● 负责集合通信库的设计和研发; ● 通过稳定性建设和通信优化提升大模型训练效率和减少推理成本;

更新于 2025-04-03北京|杭州|成都
logo of bilibili
社招技术类

1. 负责机器学习推理框架的研发和维护 2. 支持商业技术中心ctr/cvr、召回、CV、NLP等核心模型的在线部署 3. 与算法团队紧密合作,不断优化系统架构和性能

更新于 2025-04-07上海
logo of kuaishou
社招D7198

1.参与AI与GPU相关项目的性能优化与研发,通过利用并行计算优化、架构优化、量化优化和异构调度等高性能优化技术,研发行业领先的高性能异构AI优化技术与编译优化技术; 2.针对搜广推、音视频以及大模型场景,优化大模型训练和推理场景的性能; 3.与公司各算法部门深度合作,对重点项目进行算法与系统的联合优化。

更新于 2025-04-10北京