# PagedAttention ## Metadata - **Type**: Concept - **Category**: AI/LLM/Inference Optimization ## Definition PagedAttention 是 vLLM 项目开发的一种注意力机制优化算法,将 KV Cache 切分为固定大小的"块"(block),并通过页表式映射管理这些块,类似于操作系统虚拟内存的调度方式。这种方法避免了按序列分配大块连续内存导致的碎片化和 OOM(内存溢出),同时支持动态并发与复用。 ## Details - **核心思想**: 将 KV Cache 分块管理,类似操作系统虚拟内存 - **分块大小**: 固定大小的块(block) - **管理方式**: 页表式映射 - **优势**: - 避免碎片化和 OOM - 支持动态并发 - 支持相同前缀的 KV 块复用(如 beam search 和重复前缀场景) - 减少 prefill(预填充)时间 ## Related Concepts - [[vLLM]] - [[KV Cache]] - [[LLM]]