nexus/wiki/sources/大模型相关术语和框架总结｜llm-mcp-prompt-rag-vllm-token-数据蒸馏.md

---
title: "大模型相关术语和框架总结｜LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏"
type: source
tags: [llm, mcp, prompt, rag, token, vllm, embedding, agent, langchain, 蒸馏]
date: 2025-12-20
---

## Source File
- [[raw/AI/大模型相关术语和框架总结｜LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md]]

## Summary（用中文描述）
- 核心主题：大模型（LLM）生态中的关键术语与技术框架入门指南
- 问题域：大模型应用开发中的基础概念混淆、技术选型困难
- 方法/机制：通过通俗类比解释 LLM、MCP、Agent、RAG、Embedding、vLLM、Token、蒸馏等核心概念
- 结论/价值：为零基础读者提供大模型术语的系统性扫盲，建立统一认知框架

## Key Claims（用中文描述）
- LLM ≥1B 参数开始被称为"大模型"，行业以参数规模和训练数据/算力衡量
- MCP（Model Context Protocol）是 LLM 连接外部数据源和工具的标准化接口协议
- 大模型本身只给出步骤方法，不会真正执行工具调用，需配合 MCP 才能实现自动化
- Agent = LLM + MCP，通过工具调用实现自动化执行
- RAG 通过检索外部知识解决大模型的 Hallucination（幻觉）问题，正确率从 60% 提升至 90%
- Embedding 将词转化为浮点向量，通过计算向量距离判断语义关联性
- vLLM 通过 PagedAttention（分块 KV Cache）和连续批处理优化 GPU 利用率
- 1 个英文字符 ≈ 0.3 个 Token，1 个中文字符 ≈ 0.6 个 Token
- 数据蒸馏：用大模型生成精简数据，让小模型从中学习并逼近大模型效果

## Key Quotes
> "大模型是不会自己去调用外部数据源或者工具的，大模型只会告诉我们需要调用哪些工具，而我们需要自己去实现工具的调用。" — MCP 与 LLM 的边界说明
> "一百和两百的距离近，而一百离一千远，所以一百相比于一千，更接近两百这个语意。" — Embedding 语义距离的直观类比

## Key Concepts
- [[Large Language Model]]：大语言模型，≥1B 参数的语言模型，如 GPT-2（1.5B）、GPT-3（175B）
- [[Prompt]]：提示词，用户输入给大模型的语句
- [[Model Context Protocol]]：模型上下文协议，LLM 连接外部数据源和工具的标准化接口
- [[RAG]]：检索增强生成，通过外部检索解决大模型幻觉问题
- [[Embedding]]：向量化，将词转换为浮点向量以计算语义距离
- [[Agent]]：智能体，LLM + MCP 工具调用实现自动化执行
- [[LangChain]]：快速实现 Agent 的开发框架，提供标准接口连接不同 LLM 和工具
- [[vLLM]]：高效 LLM 推理引擎，通过 PagedAttention 和连续批处理优化 GPU 显存利用
- [[Token]]：大模型的基本输入单元，英文约 0.3 Token/字符，中文约 0.6 Token/字符
- [[Data Distillation]]：数据蒸馏，用大模型生成精简数据训练小模型
- [[Hallucination]]：幻觉，大模型在陌生领域"一本正经胡说八道"的现象
- [[KV Cache]]：保存历史 Key/Value 向量，避免重复计算，是推理显存开销的主要来源
- [[PagedAttention]]：vLLM 的分块注意力机制，将 KV Cache 切分为固定块并用页表管理
- [[Continuous Batching]]：连续批处理，每步解码都动态组装活跃请求批次，避免头阻塞

## Key Entities
- [[vLLM]]：vLLM 社区维护的开源项目，专注于 LLM 高效推理

## Connections
- [[Agent]] ← 构建于 ← [[Large Language Model]]
- [[Agent]] ← 构建于 ← [[Model Context Protocol]]
- [[Agent]] ← 构建于 ← [[Prompt]]
- [[RAG]] ← 解决 ← [[Hallucination]]
- [[RAG]] ← 依赖 ← [[Embedding]]
- [[vLLM]] ← 优化 ← [[KV Cache]]
- [[vLLM]] ← 使用 ← [[PagedAttention]]
- [[vLLM]] ← 使用 ← [[Continuous Batching]]
- [[LangChain]] ← 用于构建 ← [[Agent]]
- [[Data Distillation]] ← 使用 ← [[Large Language Model]]

## Contradictions
- 暂无已知冲突