28 lines
896 B
Markdown
28 lines
896 B
Markdown
# PagedAttention
|
||
|
||
## Metadata
|
||
|
||
- **Type**: Concept
|
||
- **Category**: AI/LLM/Inference Optimization
|
||
|
||
## Definition
|
||
|
||
PagedAttention 是 vLLM 项目开发的一种注意力机制优化算法,将 KV Cache 切分为固定大小的"块"(block),并通过页表式映射管理这些块,类似于操作系统虚拟内存的调度方式。这种方法避免了按序列分配大块连续内存导致的碎片化和 OOM(内存溢出),同时支持动态并发与复用。
|
||
|
||
## Details
|
||
|
||
- **核心思想**: 将 KV Cache 分块管理,类似操作系统虚拟内存
|
||
- **分块大小**: 固定大小的块(block)
|
||
- **管理方式**: 页表式映射
|
||
- **优势**:
|
||
- 避免碎片化和 OOM
|
||
- 支持动态并发
|
||
- 支持相同前缀的 KV 块复用(如 beam search 和重复前缀场景)
|
||
- 减少 prefill(预填充)时间
|
||
|
||
## Related Concepts
|
||
|
||
- [[vLLM]]
|
||
- [[KV Cache]]
|
||
- [[LLM]]
|