
智能互联AI推理平台-大模型KVCache缓存系统技术专家-杭州/北京
任职要求
1. 扎实的系统编程能力,可选精通 C++/Python/Rust,熟悉高性能并发编程与内存管理。 2. 深入理解 KVCache 相关技术,PagedAttention / vAttention 等显存分页管理,Prefix Cache / Semantic Cache 等缓存复用技术,KVCache 量化(INT8/FP8 KV)压缩技术,KVCache Offload 至 CPU/SSD 的分层存储技术。 3. 理解 LLM 推理原理,熟悉 Transformer 架构及 Attention 计算机制,熟悉主流 LLM …
工作职责
1. KVCache 核心系统研发,负责 LLM 推理场景下 KVCache 的架构设计与工程实现,优化 KVCache 的内存管理、显存分配与生命周期调度策略,研究并实现 Prefix Cache、Radix Tree Cache 等高效缓存复用机制,提升 Cache Hit Rate。 2. 设计跨机、跨节点的分布式 KVCache 共享与迁移方案,实现 KVCache 在 GPU HBM / CPU DRAM / NVMe SSD 多级存储间的高效卸载(Offload)与加载,针对长上下文、多轮对话场景优化 KVCache 的存储与传输效率。 3. 推理性能优化,结合 Continuous Batching、PagedAttention、Chunked Prefill 等机制,协同优化 KVCache 调度策略,分析推理链路中 KVCache 相关的性能瓶颈,进行端到端性能优化,针对主流推理框架(vLLM / SGLang / TensorRT-LLM / RTP-LLM)进行 KVCache 模块的深度优化与定制。 4. 系统可靠性与可观测性建设,建设 KVCache 命中率、内存占用、调度延迟等核心指标的监控体系,保障大规模集群下 KVCache 服务的高可用与容错能力。
我们是一支专注于高性能存储的团队,成员涵盖分布式存储、内存缓存、高并发服务等领域的专家。团队致力于打造高性能、低延迟、低成本的大模型推理基础设施,通过深度协同与持续技术创新,为蚂蚁多业务场景的 AI 能力提供强大支撑。 1. 参与并负责大模型推理场景的整体存储系统设计规划,重点提升KVCache数据缓存的读写性能; 2. 针对海量推理任务、长序列推理等需求,设计并实现高吞吐、低延时的分布式型存储系统; 3. 分析推理过程中的存储瓶颈,持续进行多级缓存、网络传输和数据布局的优化,在保证高可用的前提下,通过合理的资源调度与分层存储降低整体成本; 4. 制定系统容灾与故障恢复机制,实现快速恢复与自动化运维体系; 5. 跟踪前沿存储技术与大模型推理方案,将新思路应用于实战; 6. 与算法、业务、平台团队紧密协作,推动存储系统在大模型推理场景的落地和持续迭代。
底层推理基础设施建设:负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化 实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化:基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化(FP8 / INT4)与编译优化。算法 × 工程协同:与算法工程师联合设计离线训练、在线推理的完整链路,推进模型版本管理、灰度发布、回滚与 A/B 测试,确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存:架设高速并行文件系统或 KV-Store,优化 KV-Cache 热点、RDMA / RoCE 网络,降低 I/O 与通信开销。Observability & SRE:构建完整的 Metrics / Tracing / Logging 体系(Prometheus、Grafana、Jaeger、Loki),定义 SLO / SLI 并实施容量规划。技术前瞻与研究:持续跟踪新硬件(H100, MI300, Grace Hopper)、编译器(TVM, XLA, One-Inference)与调度算法,推动架构演进。
1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。
1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。