wiki-ingest: 大模型相关术语和框架总结

2026-04-16 03:49:22 +08:00
parent 997ad92e81
commit 04b7e9978c
7 changed files with 145 additions and 49 deletions
--- a/wiki/concepts/KV-Cache.md
+++ b/wiki/concepts/KV-Cache.md
@@ -0,0 +1,23 @@
+# KV Cache
+
+## Metadata
+
+- **Type**: Concept
+- **Category**: AI/LLM/Inference Optimization
+
+## Definition
+
+KV Cache（Key-Value Cache）是 Transformer 模型推理优化中的关键技术。K（Key）和 V（Value）是由每个 token 的向量化后通过线性变换得到的两类向量，用于注意力机制计算。KV Cache 将这些历史 K/V 保存下来，使得后续步骤不需要重复计算，从而加速推理。
+
+## Details
+
+- **K 和 V 的来源**: 每个 token 的向量化结果通过线性变换得到
+- **作用**: 避免重复计算，提高推理效率
+- **局限性**: KV Cache 随上下文长度、层数、头数、维度线性增长，是推理中的主要显存开销之一
+- **优化方案**: vLLM 的 PagedAttention 将 KV Cache 切分为固定大小的块管理
+
+## Related Concepts
+
+- [[vLLM]]
+- [[PagedAttention]]
+- [[LLM]]