Files
nexus/wiki/sources/大模型相关术语和框架总结|llm-mcp-prompt-rag-vllm-token-数据蒸馏.md

65 lines
3.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏"
type: source
tags: [llm, mcp, prompt, rag, token, vllm, embedding, agent, langchain, 蒸馏]
date: 2025-12-20
---
## Source File
- [[raw/AI/大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md]]
## Summary用中文描述
- 核心主题大模型LLM生态中的关键术语与技术框架入门指南
- 问题域:大模型应用开发中的基础概念混淆、技术选型困难
- 方法/机制:通过通俗类比解释 LLM、MCP、Agent、RAG、Embedding、vLLM、Token、蒸馏等核心概念
- 结论/价值:为零基础读者提供大模型术语的系统性扫盲,建立统一认知框架
## Key Claims用中文描述
- LLM ≥1B 参数开始被称为"大模型",行业以参数规模和训练数据/算力衡量
- MCPModel Context Protocol是 LLM 连接外部数据源和工具的标准化接口协议
- 大模型本身只给出步骤方法,不会真正执行工具调用,需配合 MCP 才能实现自动化
- Agent = LLM + MCP通过工具调用实现自动化执行
- RAG 通过检索外部知识解决大模型的 Hallucination幻觉问题正确率从 60% 提升至 90%
- Embedding 将词转化为浮点向量,通过计算向量距离判断语义关联性
- vLLM 通过 PagedAttention分块 KV Cache和连续批处理优化 GPU 利用率
- 1 个英文字符 ≈ 0.3 个 Token1 个中文字符 ≈ 0.6 个 Token
- 数据蒸馏:用大模型生成精简数据,让小模型从中学习并逼近大模型效果
## Key Quotes
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 与 LLM 的边界说明
> "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 语义距离的直观类比
## Key Concepts
- [[Large Language Model]]大语言模型≥1B 参数的语言模型,如 GPT-21.5B、GPT-3175B
- [[Prompt]]:提示词,用户输入给大模型的语句
- [[Model Context Protocol]]模型上下文协议LLM 连接外部数据源和工具的标准化接口
- [[RAG]]:检索增强生成,通过外部检索解决大模型幻觉问题
- [[Embedding]]:向量化,将词转换为浮点向量以计算语义距离
- [[Agent]]智能体LLM + MCP 工具调用实现自动化执行
- [[LangChain]]:快速实现 Agent 的开发框架,提供标准接口连接不同 LLM 和工具
- [[vLLM]]:高效 LLM 推理引擎,通过 PagedAttention 和连续批处理优化 GPU 显存利用
- [[Token]]:大模型的基本输入单元,英文约 0.3 Token/字符,中文约 0.6 Token/字符
- [[Data Distillation]]:数据蒸馏,用大模型生成精简数据训练小模型
- [[Hallucination]]:幻觉,大模型在陌生领域"一本正经胡说八道"的现象
- [[KV Cache]]:保存历史 Key/Value 向量,避免重复计算,是推理显存开销的主要来源
- [[PagedAttention]]vLLM 的分块注意力机制,将 KV Cache 切分为固定块并用页表管理
- [[Continuous Batching]]:连续批处理,每步解码都动态组装活跃请求批次,避免头阻塞
## Key Entities
- [[vLLM]]vLLM 社区维护的开源项目,专注于 LLM 高效推理
## Connections
- [[Agent]] ← 构建于 ← [[Large Language Model]]
- [[Agent]] ← 构建于 ← [[Model Context Protocol]]
- [[Agent]] ← 构建于 ← [[Prompt]]
- [[RAG]] ← 解决 ← [[Hallucination]]
- [[RAG]] ← 依赖 ← [[Embedding]]
- [[vLLM]] ← 优化 ← [[KV Cache]]
- [[vLLM]] ← 使用 ← [[PagedAttention]]
- [[vLLM]] ← 使用 ← [[Continuous Batching]]
- [[LangChain]] ← 用于构建 ← [[Agent]]
- [[Data Distillation]] ← 使用 ← [[Large Language Model]]
## Contradictions
- 暂无已知冲突