Files
nexus/wiki/concepts/vLLM.md
2026-04-18 12:03:16 +08:00

32 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "vLLM"
type: concept
tags: [llm, vllm, 推理引擎]
date: 2025-12-20
---
## Definition
vLLM虚拟大语言模型由 vLLM 社区维护的开源项目,旨在让大语言模型更高效地大规模执行计算,通过更好地利用 GPU 内存来加快生成式 AI 应用的输出速度。
## Core Technologies
### KV Cache
- **K 和 V**:每个 token 的向量化后通过线性变换得到的两类向量,用于注意力计算
- **KV Cache**:将历史 K/V 保存下来,后续步不用重复计算
- **问题**KV Cache 随上下文长度、层数、头数、维度线性增长,成为推理中最大的显存开销之一
### PagedAttention分块 attention
- 将每条序列的 KV Cache 切分为固定大小的块block
- 用页表式映射管理它们,像操作系统的虚拟内存一样灵活调度
- 避免了按序列分配一大块连续内存导致的碎片化和 OOM
- 支持动态并发与复用
### Continuous Batching连续批处理
- 不是攒满一批再跑,而是在每个解码步骤(按 token 迭代)都把活跃请求组装成一个批
- 序列长度不同也能高效合批GPU 基本满负载运转
- 减少短任务被长任务阻塞的头阻塞,提高并发与公平性
## Related Concepts
- [[LLM]]:使用 vLLM 进行推理的语言模型
- [[Token]]vLLM 处理的基本单元
- [[PagedAttention]]vLLM 的核心技术