3.2 KiB
3.2 KiB
title, type, tags, date, source, author
| title | type | tags | date | source | author | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 大模型术语全总结:LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏 | source |
|
2025-12-20 | https://mp.weixin.qq.com/s/ | AI工程化 |
Source File
Summary
- 核心主题:系统梳理大模型核心术语(LLM、MCP、RAG、Agent、LangChain、vLLM、Token、数据蒸馏)的含义与关系
- 问题域:AI 术语快速迭代,开发者难以系统理解核心概念及其关联
- 方法/机制:每个术语配合图示和生活化比喻,解释技术本质和协作关系
- 结论/价值:形成完整 LLM 技术栈认知地图:LLM(推理)+MCP(工具连接)+RAG(知识补充)+vLLM(高效推理)
Key Claims
- LLM:≥1B 参数的语言模型;GPT-2=1.5B、GPT-3=175B;分底座(通用)和专有(专项)两类
- Prompt:输入 LLM 的提示词,是与大模型交互的唯一接口
- MCP(模型上下文协议):LLM 连接外部数据源/工具的标准化协议;大模型只告诉你"该调用什么工具",实际调用需通过 MCP Client→Server 执行
- Agent = LLM + MCP:LLM 输出步骤,Agent 执行动作;LLM 给你"发邮件的方法",Agent 真正发出邮件
- RAG(检索增强生成):解决 LLM 幻觉问题;检索外部知识库→将 chunk+问题输入 LLM→基于上下文生成;比做给"天才大脑"配"图书馆助理"
- Embedding(向量化):词→浮点数向量→计算语义距离;"一百"到"两百"比到"一千"更近
- LangChain:快速构建 Agent 的开发框架,标准接口连接 LLM、工具、数据源
- vLLM:高效 GPU 推理引擎;核心:PagedAttention(KV Cache 分块管理)+ 连续批处理(减少 GPU 空载)
- Token:基本输入单元;1英文字符≈0.3 Token;1中文字符≈0.6 Token
- 数据蒸馏(Data Distillation):用大模型生成精简高质量训练数据,蒸馏到小模型使其逼近大模型效果
Key Quotes
"大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" "LLM 复习局限于特定的数据集,面对陌生领域会'写一个解字然后放飞自我',RAG 给了提示,让正确率从 60% 到 90%。"
Key Concepts
- MCP(模型上下文协议):LLM 连接外部工具/数据的标准化通信协议,Anthropic/Claude Code/ Cursor 均支持
- Agent执行模型:LLM(给步骤) + MCP(执行工具) = Agent(真正完成任务)
- PagedAttention:vLLM 的 KV Cache 分块管理技术,避免连续内存碎片化和 OOM
- 连续批处理(Continuous Batching):vLLM 推理优化,步进级调度 GPU 任务,减少空闲
Key Entities
Connections
- Agent ← is_combined_from ← LLM + MCP
- RAG ← augments ← LLM
- vLLM ← enables ← LLM(高效推理)
- 数据蒸馏 ← trains ← LLM
Contradictions
- (无已知冲突)