智能互联AI推理平台-大模型KVCache管控系统技术专家-杭州/北京

社招全职4年以上2026-06-16地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 扎实的后端系统开发能力，熟悉 C++/Go/Python 中至少一种，熟悉高并发服务、分布式系统、RPC、异步编程、缓存系统与资源调度系统设计。
2. 熟悉分布式资源管控或调度系统，理解多租户隔离、资源配额、优先级调度、负载均衡、准入控制、熔断降级、故障恢复等工程问题。
3. 熟悉缓存系统或存储系统设计原理，理解缓存淘汰策略、热点识别、元数据管理、一致性、分层存储、数据迁移与容量治理，有 Redis / Memcached / Ceph / 3FS / Alluxio 等系统经验者优先。
4. 具备良好的性能分析和问题定位能力，熟悉 Linux 性能工具、Promet…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责 LLM 推理场景下 KVCache 管控系统的架构设计与工程实现，建设面向大规模 GPU 集群的 KVCache 资源管理、容量规划、配额控制、生命周期管理与调度编排能力，提升 KVCache 资源利用率与系统稳定性。
2. 设计 KVCache 全局管控与调度策略，结合请求特征、模型类型、上下文长度、Prefix 复用关系、租户优先级与集群资源状态，实现 KVCache 的准入控制、淘汰策略、热点识别、跨实例复用、跨节点迁移与负载均衡。
3. 建设 KVCache 多级存储管控能力，统一管理 GPU HBM / CPU DRAM / NVMe SSD / 远端存储中的 Cache 资源，设计 Cache 分层、回收、预热、预取、降级与故障恢复机制，支撑长上下文、多轮对话、Agent 工作流等复杂推理场景。
4. 负责 KVCache 管控系统与主流推理引擎及调度系统的集成，围绕 vLLM / SGLang / TensorRT-LLM / RTP-LLM 等框架，抽象统一的 KVCache 元数据、状态同步、资源上报与控制接口，支撑异构推理后端的统一纳管。
5. 建设 KVCache 可观测性与稳定性体系，设计 Cache Hit Rate、复用收益、内存水位、碎片率、迁移延迟、Offload 延迟、淘汰次数、请求级 Cache 轨迹等核心指标，支持容量评估、异常诊断、策略调优与线上问题定位。
6. 参与大规模推理集群的端到端性能优化，分析 KVCache 管控策略对 TTFT、TPOT、吞吐、显存利用率、GPU 利用率和请求成功率的影响，持续优化系统在高并发、多租户、长上下文场景下的服务质量。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Go+

Python+

高并发+

分布式系统+

RPC+

缓存+

系统设计+

Redis+

Memcached+

还有更多 •••

登录查看完整学习资料

相关职位

AI推理平台-大模型KVCache缓存系统技术专家-杭州/北京

社招4年以上

1. KVCache 核心系统研发，负责 LLM 推理场景下 KVCache 的架构设计与工程实现，优化 KVCache 的内存管理、显存分配与生命周期调度策略，研究并实现 Prefix Cache、Radix Tree Cache 等高效缓存复用机制，提升 Cache Hit Rate。 2. 设计跨机、跨节点的分布式 KVCache 共享与迁移方案，实现 KVCache 在 GPU HBM / CPU DRAM / NVMe SSD 多级存储间的高效卸载（Offload）与加载，针对长上下文、多轮对话场景优化 KVCache 的存储与传输效率。 3. 推理性能优化，结合 Continuous Batching、PagedAttention、Chunked Prefill 等机制，协同优化 KVCache 调度策略，分析推理链路中 KVCache 相关的性能瓶颈，进行端到端性能优化，针对主流推理框架（vLLM / SGLang / TensorRT-LLM / RTP-LLM）进行 KVCache 模块的深度优化与定制。 4. 系统可靠性与可观测性建设，建设 KVCache 命中率、内存占用、调度延迟等核心指标的监控体系，保障大规模集群下 KVCache 服务的高可用与容错能力。

更新于 2026-06-16北京|杭州

推理开发工程师（Inference Engineer）

社招3-5年程序&技术类

岗位职责： 1. 负责大模型推理平台的开发、维护与性能优化，保障服务高可用性和高性能运行 2. 对大模型 KVCache 集群进行开发、维护与性能调优，解决大规模并发推理内存瓶颈 3. 管理推理服务的计算资源、流量及任务调度，优化集群资源利用率，降低推理成本 4. 建立推理服务监控告警体系，及时发现和解决性能异常和系统故障 5. 参与推理服务架构设计，支持多模态模型和不同规模模型的推理需求

上海

推理平台研发工程师

社招3-5年程序&技术类

上海|北京

大模型推理框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！工作职责： 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架； 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设； 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术，打造高效、易用、领先的AI推理框架； 4、参与/负责构建推理框架的系统容错能力，包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设； 5、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等； 6、与全公司各业务算法部门深度合作，为重点项目进行算法与系统的联合优化，支撑业务目标达成。

更新于 2026-03-28北京|上海