1.2 KiB
1.2 KiB
title, type, tags, last_updated
| title | type | tags | last_updated | |||
|---|---|---|---|---|---|---|
| vLLM | concept |
|
2025-12-20 |
基本信息
- 全称:Virtual Large Language Model
- 类型:推理优化框架
- 来源:大模型相关术语和框架总结
- 维护方:vLLM 社区
定义
vLLM 是开源项目,通过更好地利用 GPU 内存来加快大语言模型生成式 AI 应用的输出速度。
核心模块
KV Cache
- K 和 V 是每个 token 向量化后通过线性变换得到的向量,用于注意力计算
- KV Cache 保存历史 K/V,避免重复计算
- 显存开销随上下文长度、层数、头数、维度线性增长
PagedAttention
- 将 KV Cache 切分为固定大小的块(block)
- 页表式映射管理,类操作系统虚拟内存
- 避免连续内存分配导致的碎片化和 OOM
- 支持多分支和重复前缀场景的 KV 块复用
连续批处理
- 每个解码步骤(按 token 迭代)将活跃请求组装成一个批
- 序列长度不同也能高效合批
- GPU 基本满负载运转
- 减少短任务被长任务阻塞的头阻塞
关联
Aliases
- vLLM
- Virtual Large Language Model