wiki-ingest: 大模型相关术语和框架总结
This commit is contained in:
23
wiki/concepts/KV-Cache.md
Normal file
23
wiki/concepts/KV-Cache.md
Normal file
@@ -0,0 +1,23 @@
|
||||
# KV Cache
|
||||
|
||||
## Metadata
|
||||
|
||||
- **Type**: Concept
|
||||
- **Category**: AI/LLM/Inference Optimization
|
||||
|
||||
## Definition
|
||||
|
||||
KV Cache(Key-Value Cache)是 Transformer 模型推理优化中的关键技术。K(Key)和 V(Value)是由每个 token 的向量化后通过线性变换得到的两类向量,用于注意力机制计算。KV Cache 将这些历史 K/V 保存下来,使得后续步骤不需要重复计算,从而加速推理。
|
||||
|
||||
## Details
|
||||
|
||||
- **K 和 V 的来源**: 每个 token 的向量化结果通过线性变换得到
|
||||
- **作用**: 避免重复计算,提高推理效率
|
||||
- **局限性**: KV Cache 随上下文长度、层数、头数、维度线性增长,是推理中的主要显存开销之一
|
||||
- **优化方案**: vLLM 的 PagedAttention 将 KV Cache 切分为固定大小的块管理
|
||||
|
||||
## Related Concepts
|
||||
|
||||
- [[vLLM]]
|
||||
- [[PagedAttention]]
|
||||
- [[LLM]]
|
||||
Reference in New Issue
Block a user