logo of keep

Keep大模型推理与部署优化工程师(J12297)

社招全职2年以上地点:北京状态:招聘

任职要求


1、统招本科及以上学历,计算机科学、人工智能或相关专业,2 年以上工程开发经验;
2、熟练掌握 PythonC++,熟悉 Linux 环境开发,有良好的数据结构算法基础;
3、熟悉主流大模型推理框架(vLLM / SGLang / TensorRT 等),有实际的推理服务部署和优化经验;
4、了解大模型推理优化的核心原理,包括 KV Cache、PagedAttention、Prefix Caching、量化等;
5、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责运动健康垂类大模型的推理服务建设与性能优化,涵盖 SLM / LLM / VLM 等多种模型形态;
2、基于 vLLM / SGLang 等推理框架,持续优化首 token 延迟、吞吐量及 GPU 资源利用率;
3、设计并实现模型推理加速方案,包括 Prefix Caching、Speculative Decoding、量化部署等;
4、负责多模型统一接入与请求调度网关的开发,根据不同业务场景实现智能路由与负载均衡;
5、负责与推理引擎相关的 Context / KV Cache 管理优化(如长上下文、Prefix 复用等),支撑上层 Agent 场景的高效落地;
6、构建模型服务的可观测性体系,包括延迟监控、请求全链路 trace、成本归因与降级熔断策略;
7、与算法研究员紧密协作,完成模型从训练产出到线上服务的全链路打通;
8、跟进大模型推理优化领域的前沿技术进展,持续迭代推理架构和服务性能。
包括英文材料
学历+
Python+
C+++
Linux+
数据结构+
算法+
大模型+
vLLM+
SGLang+
TensorRT+
缓存+
还有更多 •••