Auto-sync

2026-04-15 15:02:52 +08:00
parent bb2f9b2b3a
commit d3e7fcf81f
71 changed files with 2549 additions and 0 deletions
--- a/wiki/concepts/vLLM.md
+++ b/wiki/concepts/vLLM.md
@@ -0,0 +1,43 @@
+---
+title: "vLLM"
+type: concept
+tags: [llm, inference-optimization, gpu]
+last_updated: 2025-12-20
+---
+
+## 基本信息
+- **全称**：Virtual Large Language Model
+- **类型**：推理优化框架
+- **来源**：大模型相关术语和框架总结
+- **维护方**：vLLM 社区
+
+## 定义
+vLLM 是开源项目，通过更好地利用 GPU 内存来加快大语言模型生成式 AI 应用的输出速度。
+
+## 核心模块
+
+### KV Cache
+- K 和 V 是每个 token 向量化后通过线性变换得到的向量，用于注意力计算
+- KV Cache 保存历史 K/V，避免重复计算
+- 显存开销随上下文长度、层数、头数、维度线性增长
+
+### PagedAttention
+- 将 KV Cache 切分为固定大小的块（block）
+- 页表式映射管理，类操作系统虚拟内存
+- 避免连续内存分配导致的碎片化和 OOM
+- 支持多分支和重复前缀场景的 KV 块复用
+
+### 连续批处理
+- 每个解码步骤（按 token 迭代）将活跃请求组装成一个批
+- 序列长度不同也能高效合批
+- GPU 基本满负载运转
+- 减少短任务被长任务阻塞的头阻塞
+
+## 关联
+- [[LLM]] ← 优化对象
+- [[RAG]] ← 可结合使用
+- [[Embedding]] ← 向量化基础
+
+## Aliases
+- vLLM
+- Virtual Large Language Model