Update nexus: fix conflicts and sync local changes

This commit is contained in:
Shen Wei
2026-04-26 12:06:50 +08:00
parent 191797c01b
commit f09834b5a5
2443 changed files with 254323 additions and 255154 deletions

View File

@@ -1,75 +1,75 @@
---
title: "大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏"
type: source
tags: [llm, mcp, prompt, rag, token, vllm, embedding, langchain]
sources: []
last_updated: 2026-04-25
---
## Source File
- [[AI/大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md]]
## Summary用中文描述
- 核心主题大模型LLM生态核心术语与框架的系统性梳理面向初学者
- 问题域大模型是什么、如何与大模型交互Prompt、如何扩展大模型能力MCP/Agent、如何解决幻觉问题RAG、如何高效部署推理vLLM、如何用小模型学习大模型能力蒸馏
- 方法/机制:
- Prompt通过自然语言指令向 LLM 输入任务描述
- MCP标准化协议连接 LLM 与外部工具/数据源
- Agent在 MCP 框架下LLM 规划调用工具并执行多步任务
- RAG检索外部知识注入 LLM 上下文,减少幻觉
- vLLMPagedAttention + 连续批处理实现高效 GPU 利用率
- Embedding将文本词转换为浮点向量通过距离计算语义相似性
- 数据蒸馏:用大模型生成精简训练数据,使小模型逼近大模型效果
- 结论/价值:本文是大模型入门术语速查手册,将 LLM/MCP/Agent/RAG/Embedding/LangChain/vLLM/Token/蒸馏 等核心概念用通俗语言串联,适合快速建立 AI 技术认知框架
## Key Claims用中文描述
- LLM 参数规模 ≥1B十亿参数是大模型行业门槛GPT-2 为 1.5BGPT-3 为 175B
- MCP 是 LLM 连接外部工具和数据的标准化协议,解决不同模型/工具集成的碎片化问题
- 大模型本身只返回方法步骤,不执行实际操作;需要 MCP 框架才能真正触发工具调用
- LLM + MCP + 工具 = AI AgentAgent 能真正执行发邮件等外部操作
- RAG 通过检索外部知识注入,将 LLM 回答正确率从约 60% 提升至约 90%
- Embedding 通过将词转为浮点向量,用向量距离衡量语义相似性,解决一词多义问题
- vLLM 通过 PagedAttention分块 KV Cache和连续批处理最大化 GPU 利用率,降低推理成本
- Token 是 LLM 的基本输入单元:英文约 0.3 token/字符,中文约 0.6 token/字符
- 数据蒸馏利用高性能大模型生成精简数据,使小模型能以更低成本逼近大模型效果
## Key Quotes
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 与 LLM 的能力边界说明
> "LLM 在考试的时候面对陌生的领域只会写一个解字因为LLM复习也只是局限于特定的数据集然后就准备放飞自我了而此时RAG给了亿些提示让LLM懂了开始往这个提示的方向做最终考试的正确率从60%到了90%" — RAG 减少幻觉的可视化类比
> "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 向量距离与语义相似性的关系
> "KV Cache 把这些历史 K/V 保存下来,后续步不用重复计算。但 KV Cache 随上下文长度、层数、头数、维度线性增长,也变成推理中的最大显存开销之一。" — vLLM 优化 KV Cache 的动机
## Key Concepts
- [[Large Language Model]]:大语言模型,以 ≥1B 参数为行业门槛的深度神经网络语言模型,通过大规模预训练获得语言理解和生成能力
- [[Prompt]]:提示词,用户向 LLM 输入的自然语言指令,引导模型产出特定类型的响应
- [[Model Context Protocol]]MCP开放协议为 LLM 应用提供标准化接口,使其能够连接外部数据源和工具进行交互
- [[AI Agent]]智能体LLM + MCP 工具框架的融合体,能够感知环境、规划步骤、调用工具并执行多步任务(如发邮件)
- [[Retrieval-Augmented Generation]]RAG检索增强生成通过从外部知识库检索相关内容注入 LLM 上下文,减少幻觉、提升回答准确率
- [[Embedding]]:向量化,将文本转换为浮点向量,通过向量距离计算语义相似性,解决一词多义问题
- [[LangChain]]:快速实现 AI Agent 的开发框架,提供标准化接口用于连接不同 LLM 和工具/数据源
- [[vLLM]]:开源 LLM 推理框架,通过 PagedAttention分块 KV Cache和连续批处理优化 GPU 内存利用率,实现高吞吐、低成本推理
- [[Token]]LLM 的基本输入单元,约等于一个单词或短语;英文约 0.3 token/字符,中文约 0.6 token/字符
- [[Data Distillation]](数据蒸馏):利用大模型生成精简训练数据,使小模型能够从中学习并逼近大模型效果的技术
- [[KV Cache]]Transformer 解码过程中保存历史 Key/Value 向量的缓存机制,避免重复计算,但带来显存瓶颈
- [[PagedAttention]]vLLM 提出的注意力机制,将 KV Cache 分块管理(类操作系统页表),避免显存碎片化
- [[Continuous Batching]](连续批处理):在每个解码步骤动态组装活跃请求为批次,无需等待整批结束即可插入新请求,提高 GPU 利用率
## Key Entities
- [[shenwei]]:本文作者,公众号 shenwei 投稿
- [[OpenAI]]GPT 系列模型的开发公司GPT-2/GPT-3 参数量引用来源)
- [[vLLM]]:开源社区维护的 LLM 推理加速框架,提供 PagedAttention 实现
## Connections
- [[Large Language Model]] ← is_the_core_of ← [[AI Agent]]
- [[Model Context Protocol]] ← enables ← [[AI Agent]]
- [[AI Agent]] ← requires ← [[Prompt]]
- [[Retrieval-Augmented Generation]] ← solves_problem_of ← [[Hallucination]]
- [[vLLM]] ← uses ← [[PagedAttention]]
- [[vLLM]] ← uses ← [[Continuous Batching]]
- [[Data Distillation]] ← transfers_knowledge_from ← [[Large Language Model]]
## Contradictions
- 与 [[llms-rag-ai-agent-三个到底什么区别]] 互补而非冲突:本文侧重入门术语科普式解释(通俗语言 + 可视化类比后者侧重三层架构的系统性梳理LLM 思考层 / RAG 认知层 / Agent 执行层),两者结合可形成从入门到深入的完整认知路径。
---
title: "大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏"
type: source
tags: [llm, mcp, prompt, rag, token, vllm, embedding, langchain]
sources: []
last_updated: 2026-04-25
---
## Source File
- [[AI/大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md]]
## Summary用中文描述
- 核心主题大模型LLM生态核心术语与框架的系统性梳理面向初学者
- 问题域大模型是什么、如何与大模型交互Prompt、如何扩展大模型能力MCP/Agent、如何解决幻觉问题RAG、如何高效部署推理vLLM、如何用小模型学习大模型能力蒸馏
- 方法/机制:
- Prompt通过自然语言指令向 LLM 输入任务描述
- MCP标准化协议连接 LLM 与外部工具/数据源
- Agent在 MCP 框架下LLM 规划调用工具并执行多步任务
- RAG检索外部知识注入 LLM 上下文,减少幻觉
- vLLMPagedAttention + 连续批处理实现高效 GPU 利用率
- Embedding将文本词转换为浮点向量通过距离计算语义相似性
- 数据蒸馏:用大模型生成精简训练数据,使小模型逼近大模型效果
- 结论/价值:本文是大模型入门术语速查手册,将 LLM/MCP/Agent/RAG/Embedding/LangChain/vLLM/Token/蒸馏 等核心概念用通俗语言串联,适合快速建立 AI 技术认知框架
## Key Claims用中文描述
- LLM 参数规模 ≥1B十亿参数是大模型行业门槛GPT-2 为 1.5BGPT-3 为 175B
- MCP 是 LLM 连接外部工具和数据的标准化协议,解决不同模型/工具集成的碎片化问题
- 大模型本身只返回方法步骤,不执行实际操作;需要 MCP 框架才能真正触发工具调用
- LLM + MCP + 工具 = AI AgentAgent 能真正执行发邮件等外部操作
- RAG 通过检索外部知识注入,将 LLM 回答正确率从约 60% 提升至约 90%
- Embedding 通过将词转为浮点向量,用向量距离衡量语义相似性,解决一词多义问题
- vLLM 通过 PagedAttention分块 KV Cache和连续批处理最大化 GPU 利用率,降低推理成本
- Token 是 LLM 的基本输入单元:英文约 0.3 token/字符,中文约 0.6 token/字符
- 数据蒸馏利用高性能大模型生成精简数据,使小模型能以更低成本逼近大模型效果
## Key Quotes
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 与 LLM 的能力边界说明
> "LLM 在考试的时候面对陌生的领域只会写一个解字因为LLM复习也只是局限于特定的数据集然后就准备放飞自我了而此时RAG给了亿些提示让LLM懂了开始往这个提示的方向做最终考试的正确率从60%到了90%" — RAG 减少幻觉的可视化类比
> "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 向量距离与语义相似性的关系
> "KV Cache 把这些历史 K/V 保存下来,后续步不用重复计算。但 KV Cache 随上下文长度、层数、头数、维度线性增长,也变成推理中的最大显存开销之一。" — vLLM 优化 KV Cache 的动机
## Key Concepts
- [[Large Language Model]]:大语言模型,以 ≥1B 参数为行业门槛的深度神经网络语言模型,通过大规模预训练获得语言理解和生成能力
- [[Prompt]]:提示词,用户向 LLM 输入的自然语言指令,引导模型产出特定类型的响应
- [[Model Context Protocol]]MCP开放协议为 LLM 应用提供标准化接口,使其能够连接外部数据源和工具进行交互
- [[AI Agent]]智能体LLM + MCP 工具框架的融合体,能够感知环境、规划步骤、调用工具并执行多步任务(如发邮件)
- [[Retrieval-Augmented Generation]]RAG检索增强生成通过从外部知识库检索相关内容注入 LLM 上下文,减少幻觉、提升回答准确率
- [[Embedding]]:向量化,将文本转换为浮点向量,通过向量距离计算语义相似性,解决一词多义问题
- [[LangChain]]:快速实现 AI Agent 的开发框架,提供标准化接口用于连接不同 LLM 和工具/数据源
- [[vLLM]]:开源 LLM 推理框架,通过 PagedAttention分块 KV Cache和连续批处理优化 GPU 内存利用率,实现高吞吐、低成本推理
- [[Token]]LLM 的基本输入单元,约等于一个单词或短语;英文约 0.3 token/字符,中文约 0.6 token/字符
- [[Data Distillation]](数据蒸馏):利用大模型生成精简训练数据,使小模型能够从中学习并逼近大模型效果的技术
- [[KV Cache]]Transformer 解码过程中保存历史 Key/Value 向量的缓存机制,避免重复计算,但带来显存瓶颈
- [[PagedAttention]]vLLM 提出的注意力机制,将 KV Cache 分块管理(类操作系统页表),避免显存碎片化
- [[Continuous Batching]](连续批处理):在每个解码步骤动态组装活跃请求为批次,无需等待整批结束即可插入新请求,提高 GPU 利用率
## Key Entities
- [[shenwei]]:本文作者,公众号 shenwei 投稿
- [[OpenAI]]GPT 系列模型的开发公司GPT-2/GPT-3 参数量引用来源)
- [[vLLM]]:开源社区维护的 LLM 推理加速框架,提供 PagedAttention 实现
## Connections
- [[Large Language Model]] ← is_the_core_of ← [[AI Agent]]
- [[Model Context Protocol]] ← enables ← [[AI Agent]]
- [[AI Agent]] ← requires ← [[Prompt]]
- [[Retrieval-Augmented Generation]] ← solves_problem_of ← [[Hallucination]]
- [[vLLM]] ← uses ← [[PagedAttention]]
- [[vLLM]] ← uses ← [[Continuous Batching]]
- [[Data Distillation]] ← transfers_knowledge_from ← [[Large Language Model]]
## Contradictions
- 与 [[llms-rag-ai-agent-三个到底什么区别]] 互补而非冲突:本文侧重入门术语科普式解释(通俗语言 + 可视化类比后者侧重三层架构的系统性梳理LLM 思考层 / RAG 认知层 / Agent 执行层),两者结合可形成从入门到深入的完整认知路径。