Files
nexus/wiki/sources/大模型相关术语和框架总结|llm-mcp-prompt-rag-vllm-token-数据蒸馏.md

76 lines
6.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏"
type: source
tags: [llm, mcp, prompt, rag, token, vllm, embedding, langchain]
sources: []
last_updated: 2026-04-25
---
## Source File
- [[AI/大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md]]
## Summary用中文描述
- 核心主题大模型LLM生态核心术语与框架的系统性梳理面向初学者
- 问题域大模型是什么、如何与大模型交互Prompt、如何扩展大模型能力MCP/Agent、如何解决幻觉问题RAG、如何高效部署推理vLLM、如何用小模型学习大模型能力蒸馏
- 方法/机制:
- Prompt通过自然语言指令向 LLM 输入任务描述
- MCP标准化协议连接 LLM 与外部工具/数据源
- Agent在 MCP 框架下LLM 规划调用工具并执行多步任务
- RAG检索外部知识注入 LLM 上下文,减少幻觉
- vLLMPagedAttention + 连续批处理实现高效 GPU 利用率
- Embedding将文本词转换为浮点向量通过距离计算语义相似性
- 数据蒸馏:用大模型生成精简训练数据,使小模型逼近大模型效果
- 结论/价值:本文是大模型入门术语速查手册,将 LLM/MCP/Agent/RAG/Embedding/LangChain/vLLM/Token/蒸馏 等核心概念用通俗语言串联,适合快速建立 AI 技术认知框架
## Key Claims用中文描述
- LLM 参数规模 ≥1B十亿参数是大模型行业门槛GPT-2 为 1.5BGPT-3 为 175B
- MCP 是 LLM 连接外部工具和数据的标准化协议,解决不同模型/工具集成的碎片化问题
- 大模型本身只返回方法步骤,不执行实际操作;需要 MCP 框架才能真正触发工具调用
- LLM + MCP + 工具 = AI AgentAgent 能真正执行发邮件等外部操作
- RAG 通过检索外部知识注入,将 LLM 回答正确率从约 60% 提升至约 90%
- Embedding 通过将词转为浮点向量,用向量距离衡量语义相似性,解决一词多义问题
- vLLM 通过 PagedAttention分块 KV Cache和连续批处理最大化 GPU 利用率,降低推理成本
- Token 是 LLM 的基本输入单元:英文约 0.3 token/字符,中文约 0.6 token/字符
- 数据蒸馏利用高性能大模型生成精简数据,使小模型能以更低成本逼近大模型效果
## Key Quotes
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 与 LLM 的能力边界说明
> "LLM 在考试的时候面对陌生的领域只会写一个解字因为LLM复习也只是局限于特定的数据集然后就准备放飞自我了而此时RAG给了亿些提示让LLM懂了开始往这个提示的方向做最终考试的正确率从60%到了90%" — RAG 减少幻觉的可视化类比
> "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 向量距离与语义相似性的关系
> "KV Cache 把这些历史 K/V 保存下来,后续步不用重复计算。但 KV Cache 随上下文长度、层数、头数、维度线性增长,也变成推理中的最大显存开销之一。" — vLLM 优化 KV Cache 的动机
## Key Concepts
- [[Large Language Model]]:大语言模型,以 ≥1B 参数为行业门槛的深度神经网络语言模型,通过大规模预训练获得语言理解和生成能力
- [[Prompt]]:提示词,用户向 LLM 输入的自然语言指令,引导模型产出特定类型的响应
- [[Model Context Protocol]]MCP开放协议为 LLM 应用提供标准化接口,使其能够连接外部数据源和工具进行交互
- [[AI Agent]]智能体LLM + MCP 工具框架的融合体,能够感知环境、规划步骤、调用工具并执行多步任务(如发邮件)
- [[Retrieval-Augmented Generation]]RAG检索增强生成通过从外部知识库检索相关内容注入 LLM 上下文,减少幻觉、提升回答准确率
- [[Embedding]]:向量化,将文本转换为浮点向量,通过向量距离计算语义相似性,解决一词多义问题
- [[LangChain]]:快速实现 AI Agent 的开发框架,提供标准化接口用于连接不同 LLM 和工具/数据源
- [[vLLM]]:开源 LLM 推理框架,通过 PagedAttention分块 KV Cache和连续批处理优化 GPU 内存利用率,实现高吞吐、低成本推理
- [[Token]]LLM 的基本输入单元,约等于一个单词或短语;英文约 0.3 token/字符,中文约 0.6 token/字符
- [[Data Distillation]](数据蒸馏):利用大模型生成精简训练数据,使小模型能够从中学习并逼近大模型效果的技术
- [[KV Cache]]Transformer 解码过程中保存历史 Key/Value 向量的缓存机制,避免重复计算,但带来显存瓶颈
- [[PagedAttention]]vLLM 提出的注意力机制,将 KV Cache 分块管理(类操作系统页表),避免显存碎片化
- [[Continuous Batching]](连续批处理):在每个解码步骤动态组装活跃请求为批次,无需等待整批结束即可插入新请求,提高 GPU 利用率
## Key Entities
- [[shenwei]]:本文作者,公众号 shenwei 投稿
- [[OpenAI]]GPT 系列模型的开发公司GPT-2/GPT-3 参数量引用来源)
- [[vLLM]]:开源社区维护的 LLM 推理加速框架,提供 PagedAttention 实现
## Connections
- [[Large Language Model]] ← is_the_core_of ← [[AI Agent]]
- [[Model Context Protocol]] ← enables ← [[AI Agent]]
- [[AI Agent]] ← requires ← [[Prompt]]
- [[Retrieval-Augmented Generation]] ← solves_problem_of ← [[Hallucination]]
- [[vLLM]] ← uses ← [[PagedAttention]]
- [[vLLM]] ← uses ← [[Continuous Batching]]
- [[Data Distillation]] ← transfers_knowledge_from ← [[Large Language Model]]
## Contradictions
- 与 [[llms-rag-ai-agent-三个到底什么区别]] 互补而非冲突:本文侧重入门术语科普式解释(通俗语言 + 可视化类比后者侧重三层架构的系统性梳理LLM 思考层 / RAG 认知层 / Agent 执行层),两者结合可形成从入门到深入的完整认知路径。