896 B
896 B
PagedAttention
Metadata
- Type: Concept
- Category: AI/LLM/Inference Optimization
Definition
PagedAttention 是 vLLM 项目开发的一种注意力机制优化算法,将 KV Cache 切分为固定大小的"块"(block),并通过页表式映射管理这些块,类似于操作系统虚拟内存的调度方式。这种方法避免了按序列分配大块连续内存导致的碎片化和 OOM(内存溢出),同时支持动态并发与复用。
Details
- 核心思想: 将 KV Cache 分块管理,类似操作系统虚拟内存
- 分块大小: 固定大小的块(block)
- 管理方式: 页表式映射
- 优势:
- 避免碎片化和 OOM
- 支持动态并发
- 支持相同前缀的 KV 块复用(如 beam search 和重复前缀场景)
- 减少 prefill(预填充)时间