Files
nexus/wiki/concepts/vLLM.md
2026-04-18 12:03:16 +08:00

1.4 KiB
Raw Blame History

title, type, tags, date
title type tags date
vLLM concept
llm
vllm
推理引擎
2025-12-20

Definition

vLLM虚拟大语言模型由 vLLM 社区维护的开源项目,旨在让大语言模型更高效地大规模执行计算,通过更好地利用 GPU 内存来加快生成式 AI 应用的输出速度。

Core Technologies

KV Cache

  • K 和 V:每个 token 的向量化后通过线性变换得到的两类向量,用于注意力计算
  • KV Cache:将历史 K/V 保存下来,后续步不用重复计算
  • 问题KV Cache 随上下文长度、层数、头数、维度线性增长,成为推理中最大的显存开销之一

PagedAttention分块 attention

  • 将每条序列的 KV Cache 切分为固定大小的块block
  • 用页表式映射管理它们,像操作系统的虚拟内存一样灵活调度
  • 避免了按序列分配一大块连续内存导致的碎片化和 OOM
  • 支持动态并发与复用

Continuous Batching连续批处理

  • 不是攒满一批再跑,而是在每个解码步骤(按 token 迭代)都把活跃请求组装成一个批
  • 序列长度不同也能高效合批GPU 基本满负载运转
  • 减少短任务被长任务阻塞的头阻塞,提高并发与公平性
  • LLM:使用 vLLM 进行推理的语言模型
  • TokenvLLM 处理的基本单元
  • PagedAttentionvLLM 的核心技术