智能互联AI推理平台-大模型KVCache缓存系统技术专家-杭州/北京

社招全职4年以上2026-06-16地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 扎实的系统编程能力，可选精通 C++/Python/Rust，熟悉高性能并发编程与内存管理。
2. 深入理解 KVCache 相关技术，PagedAttention / vAttention 等显存分页管理，Prefix Cache / Semantic Cache 等缓存复用技术，KVCache 量化（INT8/FP8 KV）压缩技术，KVCache Offload 至 CPU/SSD 的分层存储技术。
3. 理解 LLM 推理原理，熟悉 Transformer 架构及 Attention 计算机制，熟悉主流 LLM …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. KVCache 核心系统研发，负责 LLM 推理场景下 KVCache 的架构设计与工程实现，优化 KVCache 的内存管理、显存分配与生命周期调度策略，研究并实现 Prefix Cache、Radix Tree Cache 等高效缓存复用机制，提升 Cache Hit Rate。
2. 设计跨机、跨节点的分布式 KVCache 共享与迁移方案，实现 KVCache 在 GPU HBM / CPU DRAM / NVMe SSD 多级存储间的高效卸载（Offload）与加载，针对长上下文、多轮对话场景优化 KVCache 的存储与传输效率。
3. 推理性能优化，结合 Continuous Batching、PagedAttention、Chunked Prefill 等机制，协同优化 KVCache 调度策略，分析推理链路中 KVCache 相关的性能瓶颈，进行端到端性能优化，针对主流推理框架（vLLM / SGLang / TensorRT-LLM / RTP-LLM）进行 KVCache 模块的深度优化与定制。
4. 系统可靠性与可观测性建设，建设 KVCache 命中率、内存占用、调度延迟等核心指标的监控体系，保障大规模集群下 KVCache 服务的高可用与容错能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Python+

Rust+

缓存+

大模型+

Transformer+

还有更多 •••

登录查看完整学习资料

相关职位

【蚂蚁星】存储系统专家（AI方向）

校招蚂蚁星计划 -

我们是一支专注于高性能存储的团队，成员涵盖分布式存储、内存缓存、高并发服务等领域的专家。团队致力于打造高性能、低延迟、低成本的大模型推理基础设施，通过深度协同与持续技术创新，为蚂蚁多业务场景的 AI 能力提供强大支撑。 1. 参与并负责大模型推理场景的整体存储系统设计规划，重点提升KVCache数据缓存的读写性能； 2. 针对海量推理任务、长序列推理等需求，设计并实现高吞吐、低延时的分布式型存储系统； 3. 分析推理过程中的存储瓶颈，持续进行多级缓存、网络传输和数据布局的优化，在保证高可用的前提下，通过合理的资源调度与分层存储降低整体成本； 4. 制定系统容灾与故障恢复机制，实现快速恢复与自动化运维体系； 5. 跟踪前沿存储技术与大模型推理方案，将新思路应用于实战； 6. 与算法、业务、平台团队紧密协作，推动存储系统在大模型推理场景的落地和持续迭代。

上海

AI Infra研发专家

社招技术类

底层推理基础设施建设：负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化：基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化（FP8 / INT4）与编译优化。算法 × 工程协同：与算法工程师联合设计离线训练、在线推理的完整链路，推进模型版本管理、灰度发布、回滚与 A/B 测试，确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存：架设高速并行文件系统或 KV-Store，优化 KV-Cache 热点、RDMA / RoCE 网络，降低 I/O 与通信开销。Observability & SRE：构建完整的 Metrics / Tracing / Logging 体系（Prometheus、Grafana、Jaeger、Loki），定义 SLO / SLI 并实施容量规划。技术前瞻与研究：持续跟踪新硬件（H100, MI300, Grace Hopper）、编译器（TVM, XLA, One-Inference）与调度算法，推动架构演进。

更新于 2025-08-27深圳

阿里云智能-无影大模型AI系统专家-上海/杭州

社招3年以上云智能集团

1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计，优化通信效率，突破显存与计算瓶颈。 2) 研发长序列训练加速技术，支持百万级上下文窗口训练，降低计算复杂度与内存占用。 3) 设计混合精度训练方案（FP16/FP8）与梯度累积策略，结合模型并行、流水线并行等技术，提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎，基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理，支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术（量化、剪枝、LoRA），将端到端延迟降低，同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能，通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台，实时追踪模型性能指标（如训练 loss 波动、推理 QPS），实现异常自动告警与弹性扩缩容。

更新于 2025-09-18杭州|上海

阿里云智能-无影大模型AI系统专家-上海/杭州

社招3年以上云智能集团

更新于 2026-02-08杭州|上海