logo of kuaishou

快手模型推理优化专家

社招全职3-5年J0012地点:北京状态:招聘

任职要求


1、熟悉Linux开发环境,良好的系统编程、数据结构算法基础、系统设计能力;掌握C++/Python编程语言;
2、熟悉tensorflow、pytorch、TensorRT, Faster Transformer等主流训练和推理框架,并有相关优化经验者优先;
3、熟悉编译优化技术及相关框…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与快手大规模深度学习推理框架的研发与优化,保障在线系统的高可用/高并发,为快手搜索数亿用户提供高效稳定的算力输出;
2、负责快手搜索模型推理优化工作,优化模型推理性能,高吞吐低延时支撑模型推理服务;
3、 支持大模型在搜索场景落地的相关模型优化,包括不局限于AI检索,Query改写等。
包括英文材料
Linux+
数据结构+
算法+
C+++
Python+
TensorFlow+
还有更多 •••
相关职位

logo of dewu
社招技术类

推理性能优化 1. 对LLM在线推理全链路进行性能分析与瓶颈定位,针对性优化 TTFT、TPOT、吞吐等核心指标。 2. 深入调优推理引擎(vLLM/SGLang/TensorRT-LLM等),包括 KV Cache 管理、continuous batching、量化、推测解码等关键技术。 3. 结合业务 SLO 要求,设计推理部署方案(机型选型、并行策略、batch 策略等),在满足延迟约束的前提下最大化 GPU 利用率 平台工程与成本优化 1. 基于Kubernetes设计和落地 GPU 工作负载的调度策略,包括算力调度、虚拟化资源管理、拓扑感知、亲和性、HPA等。 2. 识别低利用率、低性价比算力选型等资源低效问题,推动资源整合与优化,降低单位推理成本。 3. 参与 AI 平台产品设计和研发,从工程角度出发不断优化推理服务管理模式和流程,提升用户体验和效率。 业务协同与降本增效 1. 与业务团队深度合作,理解其推理场景特征(模型大小、请求分布、延迟要求),提供定制化的优化方案,并推进落地 2. 推进推理性能与成本的可观测体系建设,在大语言模型推理场景践行FIinops理念。

更新于 2026-04-22杭州|上海
logo of aliyun
社招5年以上云智能集团

1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率 3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升

更新于 2025-12-12北京|深圳|杭州
logo of quark
社招3年以上

1、专注于解决大规模分布式模型推理中的通信瓶颈,优化通信效率; 2、深入分析NCCL/MPI等通信库在All-Reduce、All-Gather等集合操作中的性能问题,并利用GPUDirect RDMA、InfiniBand等高速网络技术进行底层优化; 3、设计与实现异步通信、计算-通信重叠、拓扑感知集合通信等策略,实现通信与计算的高效重叠,最大化GPU集群在TP/PP/EP等并行场景下的整体效率。

更新于 2025-11-30杭州|广州|北京
logo of quark
社招3年以上

1、深入理解硬件架构(GPU微架构、内存层次结构),进行深度手写核函数优化、算子融合与计算调度优化; 2、设计并实现高性能Kernel,优化核心算子(如Attention,MLP,激活函数等)在多款通用GPU硬件上的性能; 3、实施并创新算子融合(Kernel Fusion)策略,将多个操作融合为单一内核,减少内存读写开销和内核启动延迟; 4、 探索和应用模型量化(INT8/INT4/FP8/FP4等)技术,并开发配套的高性能量化算子。

更新于 2025-11-30杭州|广州|北京