logo of kuaishou

快手模型推理优化专家

社招全职D2867地点:北京状态:招聘

任职要求


1、熟悉Linux开发环境,良好的系统编程、数据结构算法基础、系统设计能力;掌握C++/Python编程语言;
2、熟悉tensorflow、pytorch、TensorRT, Faster Transformer等主流训练和推理框架,并有相关优化经验者优先;
3、熟悉编译优化技术及相关框…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与快手大规模深度学习推理框架的研发与优化,保障在线系统的高可用/高并发,为快手搜索数亿用户提供高效稳定的算力输出;
2、负责快手搜索模型推理优化工作,优化模型推理性能,高吞吐低延时支撑模型推理服务;
3、 支持大模型在搜索场景落地的相关模型优化,包括不局限于AI检索,Query改写等。
包括英文材料
Linux+
数据结构+
算法+
C+++
Python+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率 3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升

更新于 2025-12-12北京|深圳|杭州
logo of quark
社招3年以上

1、研究并应用先进的模型压缩技术,在极小精度损失下实现模型瘦身与加速; 2、研发并落地大模型低比特(INT8/INT4/FP8/FP4等)量化技术,开发与硬件协同的量化部署方案,攻克干亿参数模型低比特推理精度挑战; 3、研发并优化新一代投机采样技术,探索多模态与MoE架构加速,构建动态投机采样策略,联合工程团队打造高效训练推理引擎,最大化吞吐收益; 4、研发并应用结构化/非结构化稀疏与剪枝技术,探索与改进KV-Cache压缩、Token剪枝、Prompt压缩及CoT压缩等动态稀疏化方法,以显著降低内存占用并提升系统吞吐。

更新于 2025-11-30北京|杭州|广州
logo of quark
社招3年以上

1、专注于解决大规模分布式模型推理中的通信瓶颈,优化通信效率; 2、深入分析NCCL/MPI等通信库在All-Reduce、All-Gather等集合操作中的性能问题,并利用GPUDirect RDMA、InfiniBand等高速网络技术进行底层优化; 3、设计与实现异步通信、计算-通信重叠、拓扑感知集合通信等策略,实现通信与计算的高效重叠,最大化GPU集群在TP/PP/EP等并行场景下的整体效率。

更新于 2025-11-30杭州|广州|北京
logo of quark
社招3年以上

1、深入理解硬件架构(GPU微架构、内存层次结构),进行深度手写核函数优化、算子融合与计算调度优化; 2、设计并实现高性能Kernel,优化核心算子(如Attention,MLP,激活函数等)在多款通用GPU硬件上的性能; 3、实施并创新算子融合(Kernel Fusion)策略,将多个操作融合为单一内核,减少内存读写开销和内核启动延迟; 4、 探索和应用模型量化(INT8/INT4/FP8/FP4等)技术,并开发配套的高性能量化算子。

更新于 2025-11-30杭州|广州|北京