Files
nexus/wiki/concepts/Token.md

758 B
Raw Blame History

id, title, type, tags, sources, last_updated
id title type tags sources last_updated
token Token concept
LLM
tokenization
input-unit
LLM Terms Framework
2025-12-20

Definition

Token是大模型的基本输入单元是文本处理的最小单位。

Tokenization Rules

  • 1英文字符 ≈ 0.3 token
  • 1中文字符 ≈ 0.6 token
  • 标点符号和空格也占用token

Why It Matters

  • 影响API调用成本
  • 决定上下文长度限制
  • 影响生成速度

Context Window

模型能接受的token数量限制

  • 较短的模型4K-8K tokens
  • 中等模型32K-128K tokens
  • 长上下文模型1M+ tokens

Connections