65 lines
3.9 KiB
Markdown
65 lines
3.9 KiB
Markdown
---
|
||
title: "大模型相关术语和框架总结|LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏"
|
||
type: source
|
||
tags: [llm, mcp, prompt, rag, token, vllm, embedding, agent, langchain, 蒸馏]
|
||
date: 2025-12-20
|
||
---
|
||
|
||
## Source File
|
||
- [[raw/AI/大模型相关术语和框架总结|LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md]]
|
||
|
||
## Summary(用中文描述)
|
||
- 核心主题:大模型(LLM)生态中的关键术语与技术框架入门指南
|
||
- 问题域:大模型应用开发中的基础概念混淆、技术选型困难
|
||
- 方法/机制:通过通俗类比解释 LLM、MCP、Agent、RAG、Embedding、vLLM、Token、蒸馏等核心概念
|
||
- 结论/价值:为零基础读者提供大模型术语的系统性扫盲,建立统一认知框架
|
||
|
||
## Key Claims(用中文描述)
|
||
- LLM ≥1B 参数开始被称为"大模型",行业以参数规模和训练数据/算力衡量
|
||
- MCP(Model Context Protocol)是 LLM 连接外部数据源和工具的标准化接口协议
|
||
- 大模型本身只给出步骤方法,不会真正执行工具调用,需配合 MCP 才能实现自动化
|
||
- Agent = LLM + MCP,通过工具调用实现自动化执行
|
||
- RAG 通过检索外部知识解决大模型的 Hallucination(幻觉)问题,正确率从 60% 提升至 90%
|
||
- Embedding 将词转化为浮点向量,通过计算向量距离判断语义关联性
|
||
- vLLM 通过 PagedAttention(分块 KV Cache)和连续批处理优化 GPU 利用率
|
||
- 1 个英文字符 ≈ 0.3 个 Token,1 个中文字符 ≈ 0.6 个 Token
|
||
- 数据蒸馏:用大模型生成精简数据,让小模型从中学习并逼近大模型效果
|
||
|
||
## Key Quotes
|
||
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 与 LLM 的边界说明
|
||
> "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 语义距离的直观类比
|
||
|
||
## Key Concepts
|
||
- [[Large Language Model]]:大语言模型,≥1B 参数的语言模型,如 GPT-2(1.5B)、GPT-3(175B)
|
||
- [[Prompt]]:提示词,用户输入给大模型的语句
|
||
- [[Model Context Protocol]]:模型上下文协议,LLM 连接外部数据源和工具的标准化接口
|
||
- [[RAG]]:检索增强生成,通过外部检索解决大模型幻觉问题
|
||
- [[Embedding]]:向量化,将词转换为浮点向量以计算语义距离
|
||
- [[Agent]]:智能体,LLM + MCP 工具调用实现自动化执行
|
||
- [[LangChain]]:快速实现 Agent 的开发框架,提供标准接口连接不同 LLM 和工具
|
||
- [[vLLM]]:高效 LLM 推理引擎,通过 PagedAttention 和连续批处理优化 GPU 显存利用
|
||
- [[Token]]:大模型的基本输入单元,英文约 0.3 Token/字符,中文约 0.6 Token/字符
|
||
- [[Data Distillation]]:数据蒸馏,用大模型生成精简数据训练小模型
|
||
- [[Hallucination]]:幻觉,大模型在陌生领域"一本正经胡说八道"的现象
|
||
- [[KV Cache]]:保存历史 Key/Value 向量,避免重复计算,是推理显存开销的主要来源
|
||
- [[PagedAttention]]:vLLM 的分块注意力机制,将 KV Cache 切分为固定块并用页表管理
|
||
- [[Continuous Batching]]:连续批处理,每步解码都动态组装活跃请求批次,避免头阻塞
|
||
|
||
## Key Entities
|
||
- [[vLLM]]:vLLM 社区维护的开源项目,专注于 LLM 高效推理
|
||
|
||
## Connections
|
||
- [[Agent]] ← 构建于 ← [[Large Language Model]]
|
||
- [[Agent]] ← 构建于 ← [[Model Context Protocol]]
|
||
- [[Agent]] ← 构建于 ← [[Prompt]]
|
||
- [[RAG]] ← 解决 ← [[Hallucination]]
|
||
- [[RAG]] ← 依赖 ← [[Embedding]]
|
||
- [[vLLM]] ← 优化 ← [[KV Cache]]
|
||
- [[vLLM]] ← 使用 ← [[PagedAttention]]
|
||
- [[vLLM]] ← 使用 ← [[Continuous Batching]]
|
||
- [[LangChain]] ← 用于构建 ← [[Agent]]
|
||
- [[Data Distillation]] ← 使用 ← [[Large Language Model]]
|
||
|
||
## Contradictions
|
||
- 暂无已知冲突
|