nexus/wiki/sources/大模型相关术语和框架总结｜llm-mcp-prompt-rag-vllm-token-数据蒸馏.md at 8c909c9c0890da1f775aba2c27583e50916074d7 - nexus

ishenwei/nexus

Fork 0

Files

weishen c59cc07327 Workspace sync: auto commit 2026-04-23 12:02:11

2026-04-23 12:02:11 +08:00

6.2 KiB

Raw Blame History

title, type, tags, sources, last_updated

title

type

Source File

AI/大模型相关术语和框架总结｜LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md

Summary（用中文描述）

核心主题：大模型（LLM）生态核心术语与框架的系统性梳理，面向初学者
问题域：大模型是什么、如何与大模型交互（Prompt）、如何扩展大模型能力（MCP/Agent）、如何解决幻觉问题（RAG）、如何高效部署推理（vLLM）、如何用小模型学习大模型能力（蒸馏）
方法/机制：
- Prompt：通过自然语言指令向 LLM 输入任务描述
- MCP：标准化协议，连接 LLM 与外部工具/数据源
- Agent：在 MCP 框架下，LLM 规划调用工具并执行多步任务
- RAG：检索外部知识注入 LLM 上下文，减少幻觉
- vLLM：PagedAttention + 连续批处理实现高效 GPU 利用率
- Embedding：将文本词转换为浮点向量，通过距离计算语义相似性
- 数据蒸馏：用大模型生成精简训练数据，使小模型逼近大模型效果
结论/价值：本文是大模型入门术语速查手册，将 LLM/MCP/Agent/RAG/Embedding/LangChain/vLLM/Token/蒸馏等核心概念用通俗语言串联，适合快速建立 AI 技术认知框架

Key Claims（用中文描述）

LLM 参数规模 ≥1B（十亿参数）是大模型行业门槛；GPT-2 为 1.5B，GPT-3 为 175B
MCP 是 LLM 连接外部工具和数据的标准化协议，解决不同模型/工具集成的碎片化问题
大模型本身只返回方法步骤，不执行实际操作；需要 MCP 框架才能真正触发工具调用
LLM + MCP + 工具 = AI Agent，Agent 能真正执行发邮件等外部操作
RAG 通过检索外部知识注入，将 LLM 回答正确率从约 60% 提升至约 90%
Embedding 通过将词转为浮点向量，用向量距离衡量语义相似性，解决一词多义问题
vLLM 通过 PagedAttention（分块 KV Cache）和连续批处理最大化 GPU 利用率，降低推理成本
Token 是 LLM 的基本输入单元：英文约 0.3 token/字符，中文约 0.6 token/字符
数据蒸馏利用高性能大模型生成精简数据，使小模型能以更低成本逼近大模型效果

Key Quotes

"大模型是不会自己去调用外部数据源或者工具的，大模型只会告诉我们需要调用哪些工具，而我们需要自己去实现工具的调用。" — MCP 与 LLM 的能力边界说明

"LLM 在考试的时候面对陌生的领域，只会写一个解字（因为LLM复习也只是局限于特定的数据集），然后就准备放飞自我了，而此时RAG给了亿些提示，让LLM懂了开始往这个提示的方向做，最终考试的正确率从60%到了90%！" — RAG 减少幻觉的可视化类比

"一百和两百的距离近，而一百离一千远，所以一百相比于一千，更接近两百这个语意。" — Embedding 向量距离与语义相似性的关系

"KV Cache 把这些历史 K/V 保存下来，后续步不用重复计算。但 KV Cache 随上下文长度、层数、头数、维度线性增长，也变成推理中的最大显存开销之一。" — vLLM 优化 KV Cache 的动机

Key Concepts

Large Language Model：大语言模型，以 ≥1B 参数为行业门槛的深度神经网络语言模型，通过大规模预训练获得语言理解和生成能力
Prompt：提示词，用户向 LLM 输入的自然语言指令，引导模型产出特定类型的响应
Model Context Protocol（MCP）：开放协议，为 LLM 应用提供标准化接口，使其能够连接外部数据源和工具进行交互
AI Agent：智能体，LLM + MCP 工具框架的融合体，能够感知环境、规划步骤、调用工具并执行多步任务（如发邮件）
Retrieval-Augmented Generation（RAG）：检索增强生成，通过从外部知识库检索相关内容注入 LLM 上下文，减少幻觉、提升回答准确率
Embedding：向量化，将文本转换为浮点向量，通过向量距离计算语义相似性，解决一词多义问题
LangChain：快速实现 AI Agent 的开发框架，提供标准化接口用于连接不同 LLM 和工具/数据源
vLLM：开源 LLM 推理框架，通过 PagedAttention（分块 KV Cache）和连续批处理优化 GPU 内存利用率，实现高吞吐、低成本推理
Token：LLM 的基本输入单元，约等于一个单词或短语；英文约 0.3 token/字符，中文约 0.6 token/字符
Data Distillation（数据蒸馏）：利用大模型生成精简训练数据，使小模型能够从中学习并逼近大模型效果的技术
KV Cache：Transformer 解码过程中保存历史 Key/Value 向量的缓存机制，避免重复计算，但带来显存瓶颈
PagedAttention：vLLM 提出的注意力机制，将 KV Cache 分块管理（类操作系统页表），避免显存碎片化
Continuous Batching（连续批处理）：在每个解码步骤动态组装活跃请求为批次，无需等待整批结束即可插入新请求，提高 GPU 利用率

Key Entities

shenwei：本文作者，公众号 shenwei 投稿
OpenAI：GPT 系列模型的开发公司（GPT-2/GPT-3 参数量引用来源）
vLLM：开源社区维护的 LLM 推理加速框架，提供 PagedAttention 实现

Connections

Large Language Model ← is_the_core_of ← AI Agent
Model Context Protocol ← enables ← AI Agent
AI Agent ← requires ← Prompt
Retrieval-Augmented Generation ← solves_problem_of ← Hallucination
vLLM ← uses ← PagedAttention
vLLM ← uses ← Continuous Batching
Data Distillation ← transfers_knowledge_from ← Large Language Model

Contradictions

与 llms-rag-ai-agent-三个到底什么区别互补而非冲突：本文侧重入门术语科普式解释（通俗语言 + 可视化类比），后者侧重三层架构的系统性梳理（LLM 思考层 / RAG 认知层 / Agent 执行层），两者结合可形成从入门到深入的完整认知路径。

6.2 KiB Raw Blame History Unescape Escape

Source File

Summary（用中文描述）

Key Claims（用中文描述）

Key Quotes

Key Concepts

Key Entities

Connections

Contradictions

6.2 KiB

Raw Blame History