nexus/wiki/concepts/KV-Cache.md at c898cc3fb924eeb27ec63f2d0ae471b5059c2d3e - nexus - Gitea: Git with a cup of tea

ishenwei/nexus

Files

weishen 3224ec4787 Auto-sync: update nexus workspace

2026-04-28 07:26:52 +08:00

973 B

Raw Blame History

title, type, tags, aliases, last_updated

title

type

tags

aliases

last_updated

KV Cache

concept

kv-cache

inference

llm

optimization

KV Cache

Key-Value Cache

KV缓存

2025-12-20

Definition

KV Cache，大语言模型推理过程中的缓存机制。K（Key）和 V（Value）是由每个 Token 的向量通过线性变换得到的两类向量，用于注意力计算。KV Cache 将这些历史 K/V 保存下来，避免后续解码步骤重复计算。

Key Facts

节省计算：无需每次都重新计算历史 Token 的注意力
显存开销：KV Cache 随上下文长度、层数、头数、维度线性增长，是推理中最大的显存开销来源之一
vLLM 的核心优化对象
PagedAttention 通过分块管理解决其碎片化问题

Connections

vLLM ← 优化 ← KV Cache
PagedAttention ← 解决 ← KV Cache 的碎片化问题

Sources

大模型相关术语和框架总结｜llm-mcp-prompt-rag-vllm-token-数据蒸馏