Files
nexus/wiki/concepts/vLLM.md

712 B
Raw Blame History

id, title, type, tags, sources, last_updated
id title type tags sources last_updated
vllm vLLM concept
LLM
inference
GPU
optimization
LLM Terms Framework
2025-12-20

Definition

vLLM是一个高效LLM推理框架通过KV Cache和连续批处理提升GPU利用率。

Key Optimizations

KV Cache

  • 缓存已计算的Key-Value矩阵
  • 避免重复计算
  • 大幅提升推理速度

Continuous Batching

  • 动态批处理多个请求
  • 提高GPU利用率
  • 降低延迟

Why It Matters

  • 官方HuggingFace推理速度慢
  • vLLM可提升10-24倍速度
  • 支持高并发推理

Connections