logo of aligenie

智能互联AI推理平台-大模型KVCache缓存系统技术专家-杭州/北京

社招全职4年以上地点:北京 | 杭州状态:招聘

任职要求


1. 扎实的系统编程能力,可选精通 C++/Python/Rust,熟悉高性能并发编程与内存管理。
2. 深入理解 KVCache 相关技术,PagedAttention / vAttention 等显存分页管理,Prefix Cache / Semantic Cache缓存复用技术,KVCache 量化(INT8/FP8 KV)压缩技术,KVCache Offload 至 CPU/SSD 的分层存储技术。
3. 理解 LLM 推理原理,熟悉 Transformer 架构及 Attention 计算机制,熟悉主流 LLM
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. KVCache 核心系统研发,负责 LLM 推理场景下 KVCache 的架构设计与工程实现,优化 KVCache 的内存管理、显存分配与生命周期调度策略,研究并实现 Prefix Cache、Radix Tree Cache 等高效缓存复用机制,提升 Cache Hit Rate。
2. 设计跨机、跨节点的分布式 KVCache 共享与迁移方案,实现 KVCache 在 GPU HBM / CPU DRAM / NVMe SSD 多级存储间的高效卸载(Offload)与加载,针对长上下文、多轮对话场景优化 KVCache 的存储与传输效率。
3. 推理性能优化,结合 Continuous Batching、PagedAttention、Chunked Prefill 等机制,协同优化 KVCache 调度策略,分析推理链路中 KVCache 相关的性能瓶颈,进行端到端性能优化,针对主流推理框架(vLLM / SGLang / TensorRT-LLM / RTP-LLM)进行 KVCache 模块的深度优化与定制。
4. 系统可靠性与可观测性建设,建设 KVCache 命中率、内存占用、调度延迟等核心指标的监控体系,保障大规模集群下 KVCache 服务的高可用与容错能力。
包括英文材料
C+++
Python+
Rust+
缓存+
大模型+
Transformer+
还有更多 •••
相关职位

logo of antgroup
校招蚂蚁星计划 -

我们是一支专注于高性能存储的团队,成员涵盖分布式存储、内存缓存、高并发服务等领域的专家。团队致力于打造高性能、低延迟、低成本的大模型推理基础设施,通过深度协同与持续技术创新,为蚂蚁多业务场景的 AI 能力提供强大支撑。 1. 参与并负责大模型推理场景的整体存储系统设计规划,重点提升KVCache数据缓存的读写性能; 2. 针对海量推理任务、长序列推理等需求,设计并实现高吞吐、低延时的分布式型存储系统; 3. 分析推理过程中的存储瓶颈,持续进行多级缓存、网络传输和数据布局的优化,在保证高可用的前提下,通过合理的资源调度与分层存储降低整体成本; 4. 制定系统容灾与故障恢复机制,实现快速恢复与自动化运维体系; 5. 跟踪前沿存储技术与大模型推理方案,将新思路应用于实战; 6. 与算法、业务、平台团队紧密协作,推动存储系统在大模型推理场景的落地和持续迭代。

上海
logo of futu
社招技术类

底层推理基础设施建设:负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化 实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化:基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化(FP8 / INT4)与编译优化。算法 × 工程协同:与算法工程师联合设计离线训练、在线推理的完整链路,推进模型版本管理、灰度发布、回滚与 A/B 测试,确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存:架设高速并行文件系统或 KV-Store,优化 KV-Cache 热点、RDMA / RoCE 网络,降低 I/O 与通信开销。Observability & SRE:构建完整的 Metrics / Tracing / Logging 体系(Prometheus、Grafana、Jaeger、Loki),定义 SLO / SLI 并实施容量规划。技术前瞻与研究:持续跟踪新硬件(H100, MI300, Grace Hopper)、编译器(TVM, XLA, One-Inference)与调度算法,推动架构演进。

更新于 2025-08-27深圳
logo of aliyun
社招3年以上云智能集团

1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。

更新于 2025-09-18杭州|上海
logo of aliyun
社招3年以上云智能集团

1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。

更新于 2026-02-08杭州|上海