--- title: "大模型相关术语和框架总结|LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏" type: source tags: [llm, mcp, prompt, rag, token, vllm, embedding, agent, langchain, 蒸馏] date: 2025-12-20 --- ## Source File - [[raw/AI/大模型相关术语和框架总结|LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md]] ## Summary(用中文描述) - 核心主题:大模型(LLM)生态中的关键术语与技术框架入门指南 - 问题域:大模型应用开发中的基础概念混淆、技术选型困难 - 方法/机制:通过通俗类比解释 LLM、MCP、Agent、RAG、Embedding、vLLM、Token、蒸馏等核心概念 - 结论/价值:为零基础读者提供大模型术语的系统性扫盲,建立统一认知框架 ## Key Claims(用中文描述) - LLM ≥1B 参数开始被称为"大模型",行业以参数规模和训练数据/算力衡量 - MCP(Model Context Protocol)是 LLM 连接外部数据源和工具的标准化接口协议 - 大模型本身只给出步骤方法,不会真正执行工具调用,需配合 MCP 才能实现自动化 - Agent = LLM + MCP,通过工具调用实现自动化执行 - RAG 通过检索外部知识解决大模型的 Hallucination(幻觉)问题,正确率从 60% 提升至 90% - Embedding 将词转化为浮点向量,通过计算向量距离判断语义关联性 - vLLM 通过 PagedAttention(分块 KV Cache)和连续批处理优化 GPU 利用率 - 1 个英文字符 ≈ 0.3 个 Token,1 个中文字符 ≈ 0.6 个 Token - 数据蒸馏:用大模型生成精简数据,让小模型从中学习并逼近大模型效果 ## Key Quotes > "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 与 LLM 的边界说明 > "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 语义距离的直观类比 ## Key Concepts - [[Large Language Model]]:大语言模型,≥1B 参数的语言模型,如 GPT-2(1.5B)、GPT-3(175B) - [[Prompt]]:提示词,用户输入给大模型的语句 - [[Model Context Protocol]]:模型上下文协议,LLM 连接外部数据源和工具的标准化接口 - [[RAG]]:检索增强生成,通过外部检索解决大模型幻觉问题 - [[Embedding]]:向量化,将词转换为浮点向量以计算语义距离 - [[Agent]]:智能体,LLM + MCP 工具调用实现自动化执行 - [[LangChain]]:快速实现 Agent 的开发框架,提供标准接口连接不同 LLM 和工具 - [[vLLM]]:高效 LLM 推理引擎,通过 PagedAttention 和连续批处理优化 GPU 显存利用 - [[Token]]:大模型的基本输入单元,英文约 0.3 Token/字符,中文约 0.6 Token/字符 - [[Data Distillation]]:数据蒸馏,用大模型生成精简数据训练小模型 - [[Hallucination]]:幻觉,大模型在陌生领域"一本正经胡说八道"的现象 - [[KV Cache]]:保存历史 Key/Value 向量,避免重复计算,是推理显存开销的主要来源 - [[PagedAttention]]:vLLM 的分块注意力机制,将 KV Cache 切分为固定块并用页表管理 - [[Continuous Batching]]:连续批处理,每步解码都动态组装活跃请求批次,避免头阻塞 ## Key Entities - [[vLLM]]:vLLM 社区维护的开源项目,专注于 LLM 高效推理 ## Connections - [[Agent]] ← 构建于 ← [[Large Language Model]] - [[Agent]] ← 构建于 ← [[Model Context Protocol]] - [[Agent]] ← 构建于 ← [[Prompt]] - [[RAG]] ← 解决 ← [[Hallucination]] - [[RAG]] ← 依赖 ← [[Embedding]] - [[vLLM]] ← 优化 ← [[KV Cache]] - [[vLLM]] ← 使用 ← [[PagedAttention]] - [[vLLM]] ← 使用 ← [[Continuous Batching]] - [[LangChain]] ← 用于构建 ← [[Agent]] - [[Data Distillation]] ← 使用 ← [[Large Language Model]] ## Contradictions - 暂无已知冲突