logo of quark

千问千问事业部-大模型算子高级研发专家-杭州/北京/广州

社招全职3年以上地点:北京 | 杭州 | 广州状态:招聘

任职要求


1. 精通C++/CUDA/Python,具备扎实的计算机体系结构、并行计算和高性能计算基础,能够独立完成复杂GPU Kernel的设计、实现、调优和工程化落地;
2. 深入理解GPU硬件架构与性能优化方法,熟悉Tensor Core、Memory Hierarchy、Shared Memory、Register、Warp Scheduling、异步流水等机制,具备系统化性能分析和瓶颈定位能力;
3. 熟悉大模型推理核心算子,包括Attention、MLP、MoE GEMM、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与大模型训练、推理核心算子的设计、开发与性能优化,覆盖Attention、MLP、MoE GEMM、RMSNorm、RoPE、Sampling、KV Cache读写、量化/反量化等关键算子,支撑千亿/万亿参数模型的低延迟、高吞吐推理;
2. 面向NVIDIA、AMD及其他通用AI加速硬件,研发高性能Kernel实现方案,充分利用Tensor Core、Shared Memory、异步流水、Persistent Kernel等硬件能力,持续提升算子吞吐、延迟和资源利用率;
3. 参与FP8、FP4、INT8、INT4等低比特推理相关算子研发与优化,推动量化算子、算子融合、图级优化与推理框架协同落地,降低端到端推理成本;
4. 针对线上真实负载开展系统化性能分析、Benchmark、性能归因与问题定位,解决算子性能瓶颈、稳定性和工程化落地问题,沉淀可复用的优化方法和工程实践。
包括英文材料
C+++
CUDA+
Python+
内核+
大模型+
还有更多 •••