logo of tencent

腾讯大模型推理优化研发工程师-算子优化/编译-大模型方向

社招全职AI技术地点:深圳状态:招聘

任职要求


1.熟练掌握C/C++Python编程语言,具备良好的coding和调试能力;
2.熟悉GPU/AI芯片编程,如CUDAOpenCL,Ascend C等,熟悉cutlass等加速库是加分项;
3.熟悉主流大模型推理框架,如vllm,sglang,tensorrt-llm,FasterFransformer等;
4.熟悉各类深度学习网络和算子底层实现细节,训练和推理模型…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.研发及优化大模型推理引擎、PD分离推理调度系统;
2.优化大模型推理性能,提升吞吐并控制成本;
3.优化大模型推理框架,提升框架易用性和可调试性。
包括英文材料
C+
C+++
Python+
CUDA+
OpenCL+
还有更多 •••
相关职位

logo of kuaishou
社招D7198

1.参与AI与GPU相关项目的性能优化与研发,通过利用并行计算优化、架构优化、量化优化和异构调度等高性能优化技术,研发行业领先的高性能异构AI优化技术与编译优化技术; 2.针对搜广推、音视频以及大模型场景,优化大模型训练和推理场景的性能; 3.与公司各算法部门深度合作,对重点项目进行算法与系统的联合优化。

更新于 2025-04-10北京
logo of kuaishou
社招J1020

1、参与大模型推理/训练优化。通过研发业界领先的AI Compiler 技术,支撑搜推场景在GPU上的训练计算性能优化;支持大模型推理优化技术在异构硬件上的落地; 2、参与各种大模型推理所需的功能性开发任务;相关编译优化功能开发,以图优化、算子融合、GPU高性能算子开发及自动Codegen等技术手段不断推高在不同卡型上的计算性能极限; 3、参与支持日常的大模型推理服务部署,参与内部日常提效工具的研发。

更新于 2025-05-26北京
logo of amap
社招3年以上技术类-开发

1、主导AI模型推理引擎的架构设计与核心模块开发,优化LLM、CV等模型的低延迟、高吞吐推理性能; 2、深入硬件层(GPU/TPU/端侧芯片)进行算子和计算图优化,实现模型编译、量化压缩、动态批处理等关键技术; 3、探索大模型推理前沿技术(如 speculative decoding、continuous batching、vLLM优化等); 4、建立推理服务的监控、诊断与调优体系,实现端到端性能瓶颈分析。

更新于 2025-04-09北京
logo of alibaba
社招3年以上技术类-开发

1. 负责大模型训练和推理系统的研发和性能优化,包括性能计算性能优化,大模型推理框架,大模型流量调度,高效 CUDA 算子开发,低精度计算,高并发服务请求优化等打造领先的推理引擎。 2. 负责大模型训练和推理等前瞻性技术架构的调研和引入,不限于子图匹配、编译优化、模型量化等。 3. 与算法团队深度合作,进行算法和系统的联合优化,包括分析业务性能瓶颈,通过软硬结合的 方式,高效部署和优化 AIGC 核心业务模型,建设 AI 工具链等能力,支撑 AI 业务的高速发展。

更新于 2025-12-29杭州