nexus/wiki/concepts/vLLM.md at e4232f4feb4c2a22ae596b1cdfded8b3e66b43fd - nexus - Gitea: Git with a cup of tea

ishenwei/nexus

Files

weishen b6a3ed5f77 整理文件路径：Technical→AI/

2026-04-14 18:54:05 +08:00

712 B

Raw Blame History

id, title, type, tags, sources, last_updated

id

title

type

tags

sources

last_updated

vllm

vLLM

concept

LLM

inference

GPU

optimization

LLM Terms Framework

2025-12-20

Definition

vLLM是一个高效LLM推理框架，通过KV Cache和连续批处理提升GPU利用率。

Key Optimizations

KV Cache

缓存已计算的Key-Value矩阵
避免重复计算
大幅提升推理速度

Continuous Batching

动态批处理多个请求
提高GPU利用率
降低延迟

Why It Matters

官方HuggingFace推理速度慢
vLLM可提升10-24倍速度
支持高并发推理

Connections

LLM ← uses ← vLLM
推理优化 ← uses ← vLLM
GPU利用率 ← improves ← vLLM