712 B
712 B
id, title, type, tags, sources, last_updated
| id | title | type | tags | sources | last_updated | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| vllm | vLLM | concept |
|
|
2025-12-20 |
Definition
vLLM是一个高效LLM推理框架,通过KV Cache和连续批处理提升GPU利用率。
Key Optimizations
KV Cache
- 缓存已计算的Key-Value矩阵
- 避免重复计算
- 大幅提升推理速度
Continuous Batching
- 动态批处理多个请求
- 提高GPU利用率
- 降低延迟
Why It Matters
- 官方HuggingFace推理速度慢
- vLLM可提升10-24倍速度
- 支持高并发推理