wiki-ingest: 大模型相关术语和框架总结

2026-04-16 03:49:22 +08:00
parent 997ad92e81
commit 04b7e9978c
7 changed files with 145 additions and 49 deletions
--- a/wiki/concepts/PagedAttention.md
+++ b/wiki/concepts/PagedAttention.md
@@ -0,0 +1,27 @@
+# PagedAttention
+
+## Metadata
+
+- **Type**: Concept
+- **Category**: AI/LLM/Inference Optimization
+
+## Definition
+
+PagedAttention 是 vLLM 项目开发的一种注意力机制优化算法，将 KV Cache 切分为固定大小的"块"（block），并通过页表式映射管理这些块，类似于操作系统虚拟内存的调度方式。这种方法避免了按序列分配大块连续内存导致的碎片化和 OOM（内存溢出），同时支持动态并发与复用。
+
+## Details
+
+- **核心思想**: 将 KV Cache 分块管理，类似操作系统虚拟内存
+- **分块大小**: 固定大小的块（block）
+- **管理方式**: 页表式映射
+- **优势**:
+  - 避免碎片化和 OOM
+  - 支持动态并发
+  - 支持相同前缀的 KV 块复用（如 beam search 和重复前缀场景）
+  - 减少 prefill（预填充）时间
+
+## Related Concepts
+
+- [[vLLM]]
+- [[KV Cache]]
+- [[LLM]]