Files
nexus/wiki/concepts/PagedAttention.md

1019 B
Raw Blame History

title, type, tags, aliases, last_updated
title type tags aliases last_updated
PagedAttention concept
paged-attention
vllm
inference
optimization
PagedAttention
分页注意力
2025-12-20

Definition

PagedAttentionvLLM 的核心注意力机制创新,将 KV Cache 切分为固定大小的块block并用页表式映射管理类似操作系统的虚拟内存调度方式。

Key Facts

  • 传统方式:为每条序列分配一大块连续内存,导致碎片化和 OOM显存不足
  • PagedAttention 解决方案:将 KV Cache 切分为固定大小块,用页表管理,灵活调度
  • 优势:避免碎片化、支持动态并发、支持 KV 块复用(多分支/重复前缀场景)
  • 显著减少预填充Prefill时间

Connections

Sources