快手模型推理优化专家
任职要求
1、熟悉Linux开发环境,良好的系统编程、数据结构、算法基础、系统设计能力;掌握C++/Python编程语言; 2、熟悉tensorflow、pytorch、TensorRT, Faster Transformer等主流训练和推理框架,并有相关优化经验者优先; 3、熟悉编译优化技术及相关框…
工作职责
1、参与快手大规模深度学习推理框架的研发与优化,保障在线系统的高可用/高并发,为快手搜索数亿用户提供高效稳定的算力输出; 2、负责快手搜索模型推理优化工作,优化模型推理性能,高吞吐低延时支撑模型推理服务; 3、 支持大模型在搜索场景落地的相关模型优化,包括不局限于AI检索,Query改写等。

推理性能优化 1. 对LLM在线推理全链路进行性能分析与瓶颈定位,针对性优化 TTFT、TPOT、吞吐等核心指标。 2. 深入调优推理引擎(vLLM/SGLang/TensorRT-LLM等),包括 KV Cache 管理、continuous batching、量化、推测解码等关键技术。 3. 结合业务 SLO 要求,设计推理部署方案(机型选型、并行策略、batch 策略等),在满足延迟约束的前提下最大化 GPU 利用率 平台工程与成本优化 1. 基于Kubernetes设计和落地 GPU 工作负载的调度策略,包括算力调度、虚拟化资源管理、拓扑感知、亲和性、HPA等。 2. 识别低利用率、低性价比算力选型等资源低效问题,推动资源整合与优化,降低单位推理成本。 3. 参与 AI 平台产品设计和研发,从工程角度出发不断优化推理服务管理模式和流程,提升用户体验和效率。 业务协同与降本增效 1. 与业务团队深度合作,理解其推理场景特征(模型大小、请求分布、延迟要求),提供定制化的优化方案,并推进落地 2. 推进推理性能与成本的可观测体系建设,在大语言模型推理场景践行FIinops理念。
1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率 3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升
1、专注于解决大规模分布式模型推理中的通信瓶颈,优化通信效率; 2、深入分析NCCL/MPI等通信库在All-Reduce、All-Gather等集合操作中的性能问题,并利用GPUDirect RDMA、InfiniBand等高速网络技术进行底层优化; 3、设计与实现异步通信、计算-通信重叠、拓扑感知集合通信等策略,实现通信与计算的高效重叠,最大化GPU集群在TP/PP/EP等并行场景下的整体效率。