nexus/wiki/sources/大模型相关术语和框架总结｜llm-mcp-prompt-rag-vllm-token-数据蒸馏.md at b40abbcd473a7093d8261e212e3d6de97c1e516a - nexus - Gitea: Git with a cup of tea

ishenwei/nexus

Files

weishen 3224ec4787 Auto-sync: update nexus workspace

2026-04-28 07:26:52 +08:00

3.9 KiB

Raw Blame History

title, type, tags, date

title

type

tags

date

大模型相关术语和框架总结｜LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏

source

llm

mcp

prompt

rag

token

vllm

embedding

agent

langchain

蒸馏

2025-12-20

Source File

raw/AI/大模型相关术语和框架总结｜LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md

Summary（用中文描述）

核心主题：大模型（LLM）生态中的关键术语与技术框架入门指南
问题域：大模型应用开发中的基础概念混淆、技术选型困难
方法/机制：通过通俗类比解释 LLM、MCP、Agent、RAG、Embedding、vLLM、Token、蒸馏等核心概念
结论/价值：为零基础读者提供大模型术语的系统性扫盲，建立统一认知框架

Key Claims（用中文描述）

LLM ≥1B 参数开始被称为"大模型"，行业以参数规模和训练数据/算力衡量
MCP（Model Context Protocol）是 LLM 连接外部数据源和工具的标准化接口协议
大模型本身只给出步骤方法，不会真正执行工具调用，需配合 MCP 才能实现自动化
Agent = LLM + MCP，通过工具调用实现自动化执行
RAG 通过检索外部知识解决大模型的 Hallucination（幻觉）问题，正确率从 60% 提升至 90%
Embedding 将词转化为浮点向量，通过计算向量距离判断语义关联性
vLLM 通过 PagedAttention（分块 KV Cache）和连续批处理优化 GPU 利用率
1 个英文字符 ≈ 0.3 个 Token，1 个中文字符 ≈ 0.6 个 Token
数据蒸馏：用大模型生成精简数据，让小模型从中学习并逼近大模型效果

Key Quotes

"大模型是不会自己去调用外部数据源或者工具的，大模型只会告诉我们需要调用哪些工具，而我们需要自己去实现工具的调用。" — MCP 与 LLM 的边界说明 "一百和两百的距离近，而一百离一千远，所以一百相比于一千，更接近两百这个语意。" — Embedding 语义距离的直观类比

Key Concepts

Large Language Model：大语言模型，≥1B 参数的语言模型，如 GPT-2（1.5B）、GPT-3（175B）
Prompt：提示词，用户输入给大模型的语句
Model Context Protocol：模型上下文协议，LLM 连接外部数据源和工具的标准化接口
RAG：检索增强生成，通过外部检索解决大模型幻觉问题
Embedding：向量化，将词转换为浮点向量以计算语义距离
Agent：智能体，LLM + MCP 工具调用实现自动化执行
LangChain：快速实现 Agent 的开发框架，提供标准接口连接不同 LLM 和工具
vLLM：高效 LLM 推理引擎，通过 PagedAttention 和连续批处理优化 GPU 显存利用
Token：大模型的基本输入单元，英文约 0.3 Token/字符，中文约 0.6 Token/字符
Data Distillation：数据蒸馏，用大模型生成精简数据训练小模型
Hallucination：幻觉，大模型在陌生领域"一本正经胡说八道"的现象
KV Cache：保存历史 Key/Value 向量，避免重复计算，是推理显存开销的主要来源
PagedAttention：vLLM 的分块注意力机制，将 KV Cache 切分为固定块并用页表管理
Continuous Batching：连续批处理，每步解码都动态组装活跃请求批次，避免头阻塞

Key Entities

vLLM：vLLM 社区维护的开源项目，专注于 LLM 高效推理

Connections

Agent ← 构建于 ← Large Language Model
Agent ← 构建于 ← Model Context Protocol
Agent ← 构建于 ← Prompt
RAG ← 解决 ← Hallucination
RAG ← 依赖 ← Embedding
vLLM ← 优化 ← KV Cache
vLLM ← 使用 ← PagedAttention
vLLM ← 使用 ← Continuous Batching
LangChain ← 用于构建 ← Agent
Data Distillation ← 使用 ← Large Language Model

Contradictions

暂无已知冲突