wiki-ingest: 大模型相关术语和框架总结
This commit is contained in:
27
wiki/concepts/PagedAttention.md
Normal file
27
wiki/concepts/PagedAttention.md
Normal file
@@ -0,0 +1,27 @@
|
||||
# PagedAttention
|
||||
|
||||
## Metadata
|
||||
|
||||
- **Type**: Concept
|
||||
- **Category**: AI/LLM/Inference Optimization
|
||||
|
||||
## Definition
|
||||
|
||||
PagedAttention 是 vLLM 项目开发的一种注意力机制优化算法,将 KV Cache 切分为固定大小的"块"(block),并通过页表式映射管理这些块,类似于操作系统虚拟内存的调度方式。这种方法避免了按序列分配大块连续内存导致的碎片化和 OOM(内存溢出),同时支持动态并发与复用。
|
||||
|
||||
## Details
|
||||
|
||||
- **核心思想**: 将 KV Cache 分块管理,类似操作系统虚拟内存
|
||||
- **分块大小**: 固定大小的块(block)
|
||||
- **管理方式**: 页表式映射
|
||||
- **优势**:
|
||||
- 避免碎片化和 OOM
|
||||
- 支持动态并发
|
||||
- 支持相同前缀的 KV 块复用(如 beam search 和重复前缀场景)
|
||||
- 减少 prefill(预填充)时间
|
||||
|
||||
## Related Concepts
|
||||
|
||||
- [[vLLM]]
|
||||
- [[KV Cache]]
|
||||
- [[LLM]]
|
||||
Reference in New Issue
Block a user