Files
nexus/wiki/concepts/KV-Cache.md

973 B
Raw Blame History

title, type, tags, aliases, last_updated
title type tags aliases last_updated
KV Cache concept
kv-cache
inference
llm
optimization
KV Cache
Key-Value Cache
KV缓存
2025-12-20

Definition

KV Cache大语言模型推理过程中的缓存机制。KKey和 VValue是由每个 Token 的向量通过线性变换得到的两类向量用于注意力计算。KV Cache 将这些历史 K/V 保存下来,避免后续解码步骤重复计算。

Key Facts

  • 节省计算:无需每次都重新计算历史 Token 的注意力
  • 显存开销KV Cache 随上下文长度、层数、头数、维度线性增长,是推理中最大的显存开销来源之一
  • vLLM 的核心优化对象
  • PagedAttention 通过分块管理解决其碎片化问题

Connections

Sources