快手模型推理优化专家

社招全职D28672025-04-03地点：北京状态：招聘

扫码手机上打开

任职要求

1、熟悉Linux开发环境，良好的系统编程、数据结构、算法基础、系统设计能力；掌握C++/Python编程语言；
2、熟悉tensorflow、pytorch、TensorRT， Faster Transformer等主流训练和推理框架，并有相关优化经验者优先；
3、熟悉编译优化技术及相关框架，如MLIR、TVM、XLA；有显存优化、算子融合、图优化等实操经验；
4、熟悉CUDA编程，具备较好开发能力，熟悉triton、cutlass、有算子库开发经验者优先；
5、有搜推广模型系统优化经验者优先；
6、具有良好的团队合作精神和沟通能力，能够对算法和底层的协同优化起到核心桥梁作用。

工作职责

1、参与快手大规模深度学习推理框架的研发与优化，保障在线系统的高可用/高并发，为快手搜索数亿用户提供高效稳定的算力输出；
2、负责快手搜索模型推理优化工作，优化模型推理性能，高吞吐低延时支撑模型推理服务；
3、 支持大模型在搜索场景落地的相关模型优化，包括不局限于AI检索，Query改写等。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

数据结构+

算法+

C+++

Python+

TensorFlow+

PyTorch+

Transformer+

CUDA+

系统设计+

TensorRT+

相关职位

阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州

社招5年以上云智能集团

1.负责主流大模型（DeepSeek、通义、LLaMA等）的全栈性能优化，涵盖模型架构优化、训练/推理框架调优及底层算子优化，提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案，通过投机采样算法改进、MTP机制优化等框架级特性，提升MOE架构模型推理效率；并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性，提升集群级别的推理效率 3.完成 W8A8 等量化算法研发，并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构（NVIDIA/AMD GPU、国产化 NPU 等）进行深度硬件适配，开发高性能算子库与内存管理组件，实现跨平台性能优化与资源利用率的提升

更新于 2025-08-14

智能信息-大模型推理优化专家/高级专家-北京/杭州

社招3年以上技术类-开发

1、主导大模型在线推理系统的性能攻坚，构建多节点多GPU的分布式推理架构，实现智能请求调度算法与异构硬件的极致性能调优； 2、研究低bit量化、稀疏化attention等解码加速技术，在保障精度前提下显著降低计算资源消耗； 3、设计高并发场景下的负载均衡方案，构建支持动态扩展的弹性计算架构，优化推理引擎运行时环境，实现毫秒级延迟与高QPS吞吐能力。

更新于 2025-09-30

阿里云智能-大模型推理优化专家/高级专家-杭州/北京

社招3年以上云智能集团

1. 核心系统研发（1）设计与优化大模型推理服务框架与分布式缓存系统。（2）支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。（3）开发工具链与服务化能力，包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化（1）优化推理服务框架的性能，包括引擎适配、生命周期管理和资源调度。（2）深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。（3）支持高性能通信协议、容错与负载均衡机制。（4）提升系统可观测性，完善监控、告警与故障恢复体系。 3. 引擎与应用集成（1）深度集成推理引擎、缓存系统和存储系统，优化访问模式与架构设计。（2）满足大规模、多模态推理场景下的高吞吐与低延迟需求。

更新于 2025-09-29

饿了么-模型训练推理优化专家-上海

社招2年以上技术类-开发

负责饿了么深度模型和超大规模训练推理，支持万亿规模的稠密及稀疏训练推理优化，结合分布式系统、高性能计算、异构计算，探索性能边界，支撑超大规模模型的训练及推理部署我们关注超大规模模型训练及推理系统，为深度学习模型提供算力基座岗位职责： 1、支持百亿-万亿规模的稠密模型、稀疏模型训练，在千卡集群上，实现多种分布式训练架构，以及强化学习训推一体复用等技术，消除各类大规模模型分布式训练的瓶颈 2、支持大规模深度模型的推理部署性能优化，通过高性能计算、分布式计算、异构计算、编译优化等手段，在千卡集群上，解决大尺寸模型的推理性能瓶颈 3、深入工程和算法协同，结合大规模推荐、大语言、多模态算法，探索适合业务的创新训练范式

更新于 2025-09-25