3.9 KiB
3.9 KiB
title, type, tags, date
| title | type | tags | date | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 大模型相关术语和框架总结|LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏 | source |
|
2025-12-20 |
Source File
Summary(用中文描述)
- 核心主题:大模型(LLM)生态中的关键术语与技术框架入门指南
- 问题域:大模型应用开发中的基础概念混淆、技术选型困难
- 方法/机制:通过通俗类比解释 LLM、MCP、Agent、RAG、Embedding、vLLM、Token、蒸馏等核心概念
- 结论/价值:为零基础读者提供大模型术语的系统性扫盲,建立统一认知框架
Key Claims(用中文描述)
- LLM ≥1B 参数开始被称为"大模型",行业以参数规模和训练数据/算力衡量
- MCP(Model Context Protocol)是 LLM 连接外部数据源和工具的标准化接口协议
- 大模型本身只给出步骤方法,不会真正执行工具调用,需配合 MCP 才能实现自动化
- Agent = LLM + MCP,通过工具调用实现自动化执行
- RAG 通过检索外部知识解决大模型的 Hallucination(幻觉)问题,正确率从 60% 提升至 90%
- Embedding 将词转化为浮点向量,通过计算向量距离判断语义关联性
- vLLM 通过 PagedAttention(分块 KV Cache)和连续批处理优化 GPU 利用率
- 1 个英文字符 ≈ 0.3 个 Token,1 个中文字符 ≈ 0.6 个 Token
- 数据蒸馏:用大模型生成精简数据,让小模型从中学习并逼近大模型效果
Key Quotes
"大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 与 LLM 的边界说明 "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 语义距离的直观类比
Key Concepts
- Large Language Model:大语言模型,≥1B 参数的语言模型,如 GPT-2(1.5B)、GPT-3(175B)
- Prompt:提示词,用户输入给大模型的语句
- Model Context Protocol:模型上下文协议,LLM 连接外部数据源和工具的标准化接口
- RAG:检索增强生成,通过外部检索解决大模型幻觉问题
- Embedding:向量化,将词转换为浮点向量以计算语义距离
- Agent:智能体,LLM + MCP 工具调用实现自动化执行
- LangChain:快速实现 Agent 的开发框架,提供标准接口连接不同 LLM 和工具
- vLLM:高效 LLM 推理引擎,通过 PagedAttention 和连续批处理优化 GPU 显存利用
- Token:大模型的基本输入单元,英文约 0.3 Token/字符,中文约 0.6 Token/字符
- Data Distillation:数据蒸馏,用大模型生成精简数据训练小模型
- Hallucination:幻觉,大模型在陌生领域"一本正经胡说八道"的现象
- KV Cache:保存历史 Key/Value 向量,避免重复计算,是推理显存开销的主要来源
- PagedAttention:vLLM 的分块注意力机制,将 KV Cache 切分为固定块并用页表管理
- Continuous Batching:连续批处理,每步解码都动态组装活跃请求批次,避免头阻塞
Key Entities
- vLLM:vLLM 社区维护的开源项目,专注于 LLM 高效推理
Connections
- Agent ← 构建于 ← Large Language Model
- Agent ← 构建于 ← Model Context Protocol
- Agent ← 构建于 ← Prompt
- RAG ← 解决 ← Hallucination
- RAG ← 依赖 ← Embedding
- vLLM ← 优化 ← KV Cache
- vLLM ← 使用 ← PagedAttention
- vLLM ← 使用 ← Continuous Batching
- LangChain ← 用于构建 ← Agent
- Data Distillation ← 使用 ← Large Language Model
Contradictions
- 暂无已知冲突