PagedAttention

Type: Concept
Category: AI/LLM/Inference Optimization

Metadata

PagedAttention 是 vLLM 项目开发的一种注意力机制优化算法，将 KV Cache 切分为固定大小的"块"（block），并通过页表式映射管理这些块，类似于操作系统虚拟内存的调度方式。这种方法避免了按序列分配大块连续内存导致的碎片化和 OOM（内存溢出），同时支持动态并发与复用。

核心思想: 将 KV Cache 分块管理，类似操作系统虚拟内存
分块大小: 固定大小的块（block）
管理方式: 页表式映射
优势:
- 避免碎片化和 OOM
- 支持动态并发
- 支持相同前缀的 KV 块复用（如 beam search 和重复前缀场景）
- 减少 prefill（预填充）时间