智能互联千问事业部-大模型推理优化专家-模型压缩&加速

社招全职3年以上2026-04-06地点：北京 | 杭州 | 广州状态：招聘

扫码手机上打开

任职要求

1、精通大语言模型的基础架构（如Transformer等）和推理流程；
2、在量化/稀疏/剪枝/投机采样等任一…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、研究并应用先进的模型压缩技术，在极小精度损失下实现模型瘦身与加速；
2、研发并落地大模型低比特（INT8/INT4/FP8/FP4等）量化技术，开发与硬件协同的量化部署方案，攻克干亿参数模型低比特推理精度挑战；
3、研发并优化新一代投机采样技术，探索多模态与MoE架构加速，构建动态投机采样策略，联合工程团队打造高效训练推理引擎，最大化吞吐收益；
4、研发并应用结构化/非结构化稀疏与剪枝技术，探索与改进KV-Cache压缩、Token剪枝、Prompt压缩及CoT压缩等动态稀疏化方法，以显著降低内存占用并提升系统吞吐。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Transformer+

ICML+

还有更多 •••

登录查看完整学习资料

相关职位

千问事业部-大模型推理优化专家-通信优化

社招3年以上

1、专注于解决大规模分布式模型推理中的通信瓶颈，优化通信效率； 2、深入分析NCCL/MPI等通信库在All-Reduce、All-Gather等集合操作中的性能问题，并利用GPUDirect RDMA、InfiniBand等高速网络技术进行底层优化； 3、设计与实现异步通信、计算-通信重叠、拓扑感知集合通信等策略，实现通信与计算的高效重叠，最大化GPU集群在TP/PP/EP等并行场景下的整体效率。

更新于 2026-04-06北京|杭州|广州

千问事业部-AI调度系统专家-杭州

社招3年以上技术类-开发

1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发，满足客户不同 SLA 的资源调度；高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题； 2、面向大规模、分布式的智算场景，设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等，实现AI模型部署优化等平台能力； 3、通过画像建设、机器学习等，为调度系统提供更加智能的决策；在保障不同类型工作负载 SLA 前提下，尽可能提升硬件利用率； 4、负责多地多中心联邦调度建设，为客户提供多种异构资源、环境需求等，保障集群合理的分布、负载。

更新于 2026-04-03杭州

千问事业部-AI调度系统专家-杭州

社招3年以上技术类-开发

更新于 2026-04-03杭州

千问C端事业群-AI调度系统专家-杭州

社招3年以上技术类-开发

1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发，满足客户不同 SLA 的资源调度；高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题。 2、面向大规模、分布式的智算场景，设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等，实现AI模型部署优化等平台能力。 3、通过画像建设、机器学习等，为调度系统提供更加智能的决策；在保障不同类型工作负载 SLA 前提下，尽可能提升硬件利用率。 4、负责多地多中心联邦调度建设，为客户提供多种异构资源、环境需求等，保障集群合理的分布、负载。

更新于 2026-04-02杭州