Keep大模型推理与部署优化工程师(J12297)

社招全职2年以上2026-05-09地点：北京状态：招聘

扫码手机上打开

任职要求

1、统招本科及以上学历，计算机科学、人工智能或相关专业，2 年以上工程开发经验；
2、熟练掌握 Python 和 C++，熟悉 Linux 环境开发，有良好的数据结构与算法基础；
3、熟悉主流大模型推理框架（vLLM / SGLang / TensorRT 等），有实际的推理服务部署和优化经验；
4、了解大模型推理优化的核心原理，包括 KV Cache、PagedAttention、Prefix Caching、量化等；
5、…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责运动健康垂类大模型的推理服务建设与性能优化，涵盖 SLM / LLM / VLM 等多种模型形态；
2、基于 vLLM / SGLang 等推理框架，持续优化首 token 延迟、吞吐量及 GPU 资源利用率；
3、设计并实现模型推理加速方案，包括 Prefix Caching、Speculative Decoding、量化部署等；
4、负责多模型统一接入与请求调度网关的开发，根据不同业务场景实现智能路由与负载均衡；
5、负责与推理引擎相关的 Context / KV Cache 管理优化（如长上下文、Prefix 复用等），支撑上层 Agent 场景的高效落地；
6、构建模型服务的可观测性体系，包括延迟监控、请求全链路 trace、成本归因与降级熔断策略；
7、与算法研究员紧密协作，完成模型从训练产出到线上服务的全链路打通；
8、跟进大模型推理优化领域的前沿技术进展，持续迭代推理架构和服务性能。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

C+++

Linux+

数据结构+

算法+

大模型+

vLLM+

SGLang+

TensorRT+

缓存+

还有更多 •••

登录查看完整学习资料