973 B
973 B
title, type, tags, aliases, last_updated
| title | type | tags | aliases | last_updated | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| KV Cache | concept |
|
|
2025-12-20 |
Definition
KV Cache,大语言模型推理过程中的缓存机制。K(Key)和 V(Value)是由每个 Token 的向量通过线性变换得到的两类向量,用于注意力计算。KV Cache 将这些历史 K/V 保存下来,避免后续解码步骤重复计算。
Key Facts
- 节省计算:无需每次都重新计算历史 Token 的注意力
- 显存开销:KV Cache 随上下文长度、层数、头数、维度线性增长,是推理中最大的显存开销来源之一
- vLLM 的核心优化对象
- PagedAttention 通过分块管理解决其碎片化问题
Connections
- vLLM ← 优化 ← KV Cache
- PagedAttention ← 解决 ← KV Cache 的碎片化问题