8.4
深览指数
科技Bestblogs·阿里技术··AI 生成
为什么大模型的缓存命中率能到 90%?
文章从 KV Cache 原理和 Prefix Caching 技术出发,解释了 agent 式多轮对话中缓存命中率常达 90% 的必然性,指出高命中率是「只追加不插改」调用模式的副产物,并提出了一个简化估算模型。作者同时警示:高命中率不等于绝对省钱,真正的成本优化杠杆在于低命中率的那部分流量。适合关注大模型推理优化、AI Infra 成本的工程师或技术决策者阅读。原文 ↗
核心观点
- ▍agent 式多轮对话天然适配前缀缓存,随着对话轮数增加,缓存命中率快速趋近 90% 以上。
- ▍高命中率是「每轮重发大上下文」的副产物,不代表绝对成本最优;真正的优化杠杆在于导致低命中率的少数流量上。
- 01KV Cache 将每一步计算量从平方级降到线性,历史 token 的 Key/Value 一旦算出不再变化。
- 02Prefix Caching 要求前缀逐字完全一致,不支持插入或修改,因为位置编码和因果注意力使任何变更导致后续缓存集体失效。
- 03当前技术方向包括 PagedAttention(按页管理 KV 减少碎片)、APC/RadixAttention(高效前缀匹配)、以及位置无关缓存(如 Prompt Cache、CacheBlend)尝试复用非前缀片段。
- 04简化模型 (T−1)/(T+1) 估算命中率:T=20 轮时命中率即达 90.5%。
- 05主流商用模型定价与 TTL 策略差异:Gemini 大上下文与免费 tier 对小请求全缓存,DeepSeek 通过系统 Prompt 预填滥用特权,GPT/Claude 分钟级 TTL 但短对话居多。
- 06文章引用了 SOSP、MLSys、EuroSys 等顶会论文(如 vLLM、PagedAttention、CacheGen)和官方文档。
反方 / 局限
- — 高命中率虽能降低单次生成的延迟和成本,但绝对输入量被重发上下文模式撑大,总成本未必最优。
- — 位置无关缓存技术虽突破逐字前缀约束,但尚未大规模普及,其一致性保障和性能开销仍是开放问题。
- — 文章简化模型未考虑动态前缀长度、缓存老化、并发冲突等实际工程约束,在极端流量下命中率可能显著偏离理论值。
KV CachePrefix CachingPagedAttentionAPCRadixAttentionPrompt CacheCacheBlendGPTClaudeGeminiDeepSeek阿里技术
3 分钟 · 5 卡片 · 11 资料
读原文 →