logo of aligenie

智能互联千问事业部-大模型推理优化专家-模型压缩&加速

社招全职3年以上地点:北京 | 杭州 | 广州状态:招聘

任职要求


1、精通大语言模型的基础架构(如Transformer等)和推理流程;
2、在量化/稀疏/剪枝/投机采样等任一…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、研究并应用先进的模型压缩技术,在极小精度损失下实现模型瘦身与加速;
2、研发并落地大模型低比特(INT8/INT4/FP8/FP4等)量化技术,开发与硬件协同的量化部署方案,攻克干亿参数模型低比特推理精度挑战;
3、研发并优化新一代投机采样技术,探索多模态与MoE架构加速,构建动态投机采样策略,联合工程团队打造高效训练推理引擎,最大化吞吐收益;
4、研发并应用结构化/非结构化稀疏与剪枝技术,探索与改进KV-Cache压缩、Token剪枝、Prompt压缩及CoT压缩等动态稀疏化方法,以显著降低内存占用并提升系统吞吐。
包括英文材料
Transformer+
ICML+
还有更多 •••
相关职位

logo of aligenie
社招3年以上

1、专注于解决大规模分布式模型推理中的通信瓶颈,优化通信效率; 2、深入分析NCCL/MPI等通信库在All-Reduce、All-Gather等集合操作中的性能问题,并利用GPUDirect RDMA、InfiniBand等高速网络技术进行底层优化; 3、设计与实现异步通信、计算-通信重叠、拓扑感知集合通信等策略,实现通信与计算的高效重叠,最大化GPU集群在TP/PP/EP等并行场景下的整体效率。

更新于 2026-04-06北京|杭州|广州
logo of quark
社招3年以上技术类-开发

1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题; 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力; 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率; 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。

更新于 2026-04-03杭州
logo of aligenie
社招3年以上技术类-开发

1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题; 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力; 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率; 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。

更新于 2026-04-03杭州
logo of quark
社招3年以上技术类-开发

1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题。 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力。 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率。 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。

更新于 2026-04-02杭州