为什么大模型的缓存命中率能到 90%？

8.4

深览指数

科技Bestblogs·阿里技术·07-03 19:19·AI 生成

为什么大模型的缓存命中率能到 90%？

文章从 KV Cache 原理和 Prefix Caching 技术出发，解释了 agent 式多轮对话中缓存命中率常达 90% 的必然性，指出高命中率是「只追加不插改」调用模式的副产物，并提出了一个简化估算模型。作者同时警示：高命中率不等于绝对省钱，真正的成本优化杠杆在于低命中率的那部分流量。适合关注大模型推理优化、AI Infra 成本的工程师或技术决策者阅读。原文 ↗原文 ↗

核心观点

▍agent 式多轮对话天然适配前缀缓存，随着对话轮数增加，缓存命中率快速趋近 90% 以上。
▍高命中率是「每轮重发大上下文」的副产物，不代表绝对成本最优；真正的优化杠杆在于导致低命中率的少数流量上。

01KV Cache 将每一步计算量从平方级降到线性，历史 token 的 Key/Value 一旦算出不再变化。
02Prefix Caching 要求前缀逐字完全一致，不支持插入或修改，因为位置编码和因果注意力使任何变更导致后续缓存集体失效。
03当前技术方向包括 PagedAttention（按页管理 KV 减少碎片）、APC/RadixAttention（高效前缀匹配）、以及位置无关缓存（如 Prompt Cache、CacheBlend）尝试复用非前缀片段。
04简化模型 (T−1)/(T+1) 估算命中率：T=20 轮时命中率即达 90.5%。
05主流商用模型定价与 TTL 策略差异：Gemini 大上下文与免费 tier 对小请求全缓存，DeepSeek 通过系统 Prompt 预填滥用特权，GPT/Claude 分钟级 TTL 但短对话居多。
06文章引用了 SOSP、MLSys、EuroSys 等顶会论文（如 vLLM、PagedAttention、CacheGen）和官方文档。

反方 / 局限

— 高命中率虽能降低单次生成的延迟和成本，但绝对输入量被重发上下文模式撑大，总成本未必最优。
— 位置无关缓存技术虽突破逐字前缀约束，但尚未大规模普及，其一致性保障和性能开销仍是开放问题。
— 文章简化模型未考虑动态前缀长度、缓存老化、并发冲突等实际工程约束，在极端流量下命中率可能显著偏离理论值。

KV Cache Prefix Caching PagedAttention APC RadixAttention Prompt Cache CacheBlend GPT Claude Gemini DeepSeek 阿里技术

3 分钟 · 5 卡片 · 11 资料

读原文 →

为什么大模型的缓存命中率能到 90%？

概念锚点

前置背景

平行视角

未来推演

延伸追问