千问千问事业部-大模型压缩&推理加速高级专家-杭州/北京/广州

社招全职3年以上2026-07-05地点：北京 | 杭州 | 广州状态：招聘

扫码手机上打开

任职要求

1. 在量化、剪枝、稀疏、蒸馏、投机解码、KV Cache压缩、Token压缩等至少一个方向有深入研究或大规模工程落地经验；
2. 熟悉主流低比特量化方法，包括FP8、FP4、INT8、INT4、PTQ、QAT、SmoothQuant、AWQ、GPTQ、KV Cache量化、混合精度策略等，能够分析并解决低比特部署中的精度退化问题…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 参与大模型压缩与推理加速技术研发，围绕语言模型、多模态模型、MoE模型和Agentic推理场景，设计并实现低成本、低延迟、高吞吐的模型优化方案；
2. 研发并落地低比特量化技术，包括FP8、FP4、INT8、INT4、KV Cache量化、MoE量化、混合精度量化、QAT/PTQ等方向，解决大规模模型低比特部署下的精度、稳定性和性能问题；
3. 参与投机解码、稀疏化、剪枝、蒸馏、Token剪枝、Prompt压缩、CoT压缩、KV Cache压缩等推理加速技术探索与落地，持续提升Decode效率并降低显存与计算开销；
4. 建立和完善模型压缩效果评估与回归机制，协同模型、算子、框架和业务团队完成算法方案到线上部署的闭环，对模型效果、推理成本和吞吐收益负责。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

缓存+

Python+

PyTorch+

大模型+

还有更多 •••

登录查看完整学习资料