wiki-ingest: 大模型相关术语和框架总结

This commit is contained in:
2026-04-16 03:49:22 +08:00
parent 997ad92e81
commit 04b7e9978c
7 changed files with 145 additions and 49 deletions

View File

@@ -0,0 +1,27 @@
# PagedAttention
## Metadata
- **Type**: Concept
- **Category**: AI/LLM/Inference Optimization
## Definition
PagedAttention 是 vLLM 项目开发的一种注意力机制优化算法,将 KV Cache 切分为固定大小的"块"block并通过页表式映射管理这些块类似于操作系统虚拟内存的调度方式。这种方法避免了按序列分配大块连续内存导致的碎片化和 OOM内存溢出同时支持动态并发与复用。
## Details
- **核心思想**: 将 KV Cache 分块管理,类似操作系统虚拟内存
- **分块大小**: 固定大小的块block
- **管理方式**: 页表式映射
- **优势**:
- 避免碎片化和 OOM
- 支持动态并发
- 支持相同前缀的 KV 块复用(如 beam search 和重复前缀场景)
- 减少 prefill预填充时间
## Related Concepts
- [[vLLM]]
- [[KV Cache]]
- [[LLM]]