nexus/wiki/concepts/Continuous-Batching.md

---
title: "Continuous Batching"
type: concept
tags: [continuous-batching, vllm, inference, gpu]
aliases: [Continuous Batching, 连续批处理, Iteration-Level Scheduling]
last_updated: 2025-12-20
---

## Definition
Continuous Batching，连续批处理，vLLM 的推理优化技术。与传统的攒满一批再处理不同，Continuous Batching 在每个解码步骤（按 Token 迭代）都动态组装活跃请求批次，GPU 基本满负载运转。

## Key Facts
- 传统批处理：攒满一批再跑，短任务被长任务阻塞（头阻塞问题）
- Continuous Batching：每步解码都组装新批次，无需等待整批结束即可插入新请求
- 基于 [[PagedAttention]] 的块式内存 + 步进级调度器实现
- 提高 GPU 并发与公平性，充分利用 GPU 算力

## Connections
- [[vLLM]] ← 使用 ← [[Continuous Batching]]
- [[PagedAttention]] ← 协同 ← [[Continuous Batching]]

## Sources
- [[大模型相关术语和框架总结｜llm-mcp-prompt-rag-vllm-token-数据蒸馏]]