logo of quark

千问千问事业部-大模型压缩&推理加速高级专家-杭州/北京/广州

社招全职3年以上地点:北京 | 杭州 | 广州状态:招聘

任职要求


1. 在量化、剪枝、稀疏、蒸馏、投机解码、KV Cache压缩、Token压缩等至少一个方向有深入研究或大规模工程落地经验;
2. 熟悉主流低比特量化方法,包括FP8、FP4、INT8、INT4、PTQ、QAT、SmoothQuant、AWQ、GPTQ、KV Cache量化、混合精度策略等,能够分析并解决低比特部署中的精度退化问题…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与大模型压缩与推理加速技术研发,围绕语言模型、多模态模型、MoE模型和Agentic推理场景,设计并实现低成本、低延迟、高吞吐的模型优化方案;
2. 研发并落地低比特量化技术,包括FP8、FP4、INT8、INT4、KV Cache量化、MoE量化、混合精度量化、QAT/PTQ等方向,解决大规模模型低比特部署下的精度、稳定性和性能问题;
3. 参与投机解码、稀疏化、剪枝、蒸馏、Token剪枝、Prompt压缩、CoT压缩、KV Cache压缩等推理加速技术探索与落地,持续提升Decode效率并降低显存与计算开销;
4. 建立和完善模型压缩效果评估与回归机制,协同模型、算子、框架和业务团队完成算法方案到线上部署的闭环,对模型效果、推理成本和吞吐收益负责。
包括英文材料
缓存+
Python+
PyTorch+
大模型+
还有更多 •••