# 大模型相关术语和框架总结

## Metadata

- **Date**: 2025-12-20
- **Source**: https://mp.weixin.qq.com/s/W4rQxUCGT-ALvra2fBwYtg
- **Category**: AI/LLM

## Key Insights

- LLM 以参数规模衡量，≥1B 参数通常被视为大模型门槛（GPT-2 有 1.5B，GPT-3 有 175B）
- MCP 协议为 LLM 应用提供标准化接口，连接外部数据源和工具，实现工具调用标准化
- 大模型仅输出步骤方法，不执行实际调用，需配合 MCP 才能实现真正自动化
- RAG 通过检索增强将 LLM 考试正确率从 60% 提升至 90%，有效解决 hallucination 问题
- vLLM 通过 PagedAttention（块式 KV Cache）和连续批处理优化 GPU 利用率，提升推理效率
- Token 是 LLM 的基本输入单元，中文约 0.6 token/字符，英文约 0.3 token/字符
- 数据蒸馏利用大模型生成精简数据，训练小模型逼近大模型效果

## Summary

大模型（LLM）在今年的热度可以说是现象级的。本文梳理了大模型领域的核心术语，包括 LLM、MCP、RAG、Agent、LangChain、vLLM、Token、数据蒸馏等。LLM 以参数规模衡量，通常 ≥1B 参数被称为大模型。MCP（Model Context Protocol）是开放协议，为 LLM 应用提供标准化接口连接外部数据源和工具。值得注意的是，大模型本身不会执行工具调用，只会输出步骤方法，需要配合 MCP 才能实现真正自动化。

RAG（Retrieval-augmented generation）检索增强生成是解决大模型 hallucination（幻觉）问题的关键技术，通过外部知识检索增强生成质量。vLLM 是虚拟大语言模型的开源项目，通过 PagedAttention 和连续批处理两大模块优化 GPU 内存利用，提升推理效率。Embedding 向量化技术将词转化为浮点数字用于计算语义距离，是 RAG 等技术的基础。数据蒸馏则利用高性能大模型生成精简数据，训练小模型以逼近大模型效果。

## Key Entities

- [[GPT-2]]: 1.5B 参数的早期较大语言模型
- [[GPT-3]]: 175B 参数的大模型标杆
- [[DeepSeek]]: 国产大模型代表（文中提及）
- [[Manus]]: AI Agent 产品（文中提及）
- [[LangChain]]: 快速实现 Agent 的开发框架，160+ 文档加载器

## Key Concepts

- [[LLM]]: Large Language Model，以参数规模衡量（≥1B 参数）
- [[MCP]]: Model Context Protocol，LLM 与外部工具的标准化通信协议
- [[Agent]]: 智能体，大模型 + MCP 工具整合后实现实际任务执行
- [[RAG]]: Retrieval-augmented generation，检索增强生成，解决 hallucination 问题
- [[Embedding]]: 向量化，将词转化为浮点数字以计算语义距离
- [[LangChain]]: 快速实现 Agent 的开发框架，提供 LLM 标准接口和工具集成
- [[vLLM]]: 虚拟大语言模型，通过 PagedAttention 和连续批处理优化推理效率
- [[Token]]: LLM 的基本输入单元，中文约 0.6 token/字符
- [[数据蒸馏]]: Data Distillation，用大模型生成精简数据训练小模型
- [[KV Cache]]: Key-Value Cache，保存历史 K/V 向量避免重复计算
- [[PagedAttention]]: vLLM 的分块注意力机制，将 KV Cache 切分为固定大小块管理
- [[Hallucination]]: 幻觉，大模型一本正经回答但实际错误的现象

## Related Sources

- [[LLMs-RAG-AI-Agent-三个到底什么区别]] — LLM/RAG/Agent 层级关系与协同模式
- [[RAG从入门到精通系列1：基础RAG]] — RAG 基础概念与实操流程
- [[MCP在Cursor中的集成与应用详解]] — MCP 协议在 Cursor IDE 中的集成方法