wiki-ingest: 大模型相关术语和框架总结
This commit is contained in:
@@ -1,8 +1,11 @@
|
|||||||
# Hallucination
|
# Hallucination (幻觉)
|
||||||
|
|
||||||
## Definition
|
## Definition
|
||||||
|
|
||||||
The phenomenon where an LLM generates information that appears plausible but is actually false, fabricated, or not grounded in its input or training data. The model "makes things up" with confidence, presenting fiction as fact.
|
The phenomenon where an LLM generates information that appears plausible but is actually false, fabricated, or not grounded in its input or training data. The model "makes things up" with confidence, presenting fiction as fact.
|
||||||
|
|
||||||
|
In the context of Chinese documentation: 大模型总是一本正经的回答问题,但其实是在胡说八道。LLM 在面对陌生领域时,只会在答案中写一个"解"字(因为 LLM 的知识局限于特定数据集),然后就开始放飞自我生成看似合理但实际错误的内容。
|
||||||
|
|
||||||
## Key Statistics
|
## Key Statistics
|
||||||
- If a single model hallucinates 20% of the time
|
- If a single model hallucinates 20% of the time
|
||||||
- 3 models hallucinating the exact same lie: 0.8% (0.2³ = 0.008)
|
- 3 models hallucinating the exact same lie: 0.8% (0.2³ = 0.008)
|
||||||
@@ -30,4 +33,6 @@ The phenomenon where an LLM generates information that appears plausible but is
|
|||||||
- [[Context Drift]]
|
- [[Context Drift]]
|
||||||
- [[Multi-Agent Consensus]]
|
- [[Multi-Agent Consensus]]
|
||||||
- [[Validator]]
|
- [[Validator]]
|
||||||
- [[LLM Reliability Engineering]]
|
- [[LLM Reliability Engineering]]
|
||||||
|
- [[RAG]] — 检索增强生成,通过外部知识检索解决幻觉问题,可将正确率从 60% 提升至 90%
|
||||||
|
- [[Embedding]] — 向量化技术,支撑 RAG 的语义检索基础
|
||||||
23
wiki/concepts/KV-Cache.md
Normal file
23
wiki/concepts/KV-Cache.md
Normal file
@@ -0,0 +1,23 @@
|
|||||||
|
# KV Cache
|
||||||
|
|
||||||
|
## Metadata
|
||||||
|
|
||||||
|
- **Type**: Concept
|
||||||
|
- **Category**: AI/LLM/Inference Optimization
|
||||||
|
|
||||||
|
## Definition
|
||||||
|
|
||||||
|
KV Cache(Key-Value Cache)是 Transformer 模型推理优化中的关键技术。K(Key)和 V(Value)是由每个 token 的向量化后通过线性变换得到的两类向量,用于注意力机制计算。KV Cache 将这些历史 K/V 保存下来,使得后续步骤不需要重复计算,从而加速推理。
|
||||||
|
|
||||||
|
## Details
|
||||||
|
|
||||||
|
- **K 和 V 的来源**: 每个 token 的向量化结果通过线性变换得到
|
||||||
|
- **作用**: 避免重复计算,提高推理效率
|
||||||
|
- **局限性**: KV Cache 随上下文长度、层数、头数、维度线性增长,是推理中的主要显存开销之一
|
||||||
|
- **优化方案**: vLLM 的 PagedAttention 将 KV Cache 切分为固定大小的块管理
|
||||||
|
|
||||||
|
## Related Concepts
|
||||||
|
|
||||||
|
- [[vLLM]]
|
||||||
|
- [[PagedAttention]]
|
||||||
|
- [[LLM]]
|
||||||
27
wiki/concepts/PagedAttention.md
Normal file
27
wiki/concepts/PagedAttention.md
Normal file
@@ -0,0 +1,27 @@
|
|||||||
|
# PagedAttention
|
||||||
|
|
||||||
|
## Metadata
|
||||||
|
|
||||||
|
- **Type**: Concept
|
||||||
|
- **Category**: AI/LLM/Inference Optimization
|
||||||
|
|
||||||
|
## Definition
|
||||||
|
|
||||||
|
PagedAttention 是 vLLM 项目开发的一种注意力机制优化算法,将 KV Cache 切分为固定大小的"块"(block),并通过页表式映射管理这些块,类似于操作系统虚拟内存的调度方式。这种方法避免了按序列分配大块连续内存导致的碎片化和 OOM(内存溢出),同时支持动态并发与复用。
|
||||||
|
|
||||||
|
## Details
|
||||||
|
|
||||||
|
- **核心思想**: 将 KV Cache 分块管理,类似操作系统虚拟内存
|
||||||
|
- **分块大小**: 固定大小的块(block)
|
||||||
|
- **管理方式**: 页表式映射
|
||||||
|
- **优势**:
|
||||||
|
- 避免碎片化和 OOM
|
||||||
|
- 支持动态并发
|
||||||
|
- 支持相同前缀的 KV 块复用(如 beam search 和重复前缀场景)
|
||||||
|
- 减少 prefill(预填充)时间
|
||||||
|
|
||||||
|
## Related Concepts
|
||||||
|
|
||||||
|
- [[vLLM]]
|
||||||
|
- [[KV Cache]]
|
||||||
|
- [[LLM]]
|
||||||
22
wiki/entities/GPT-2.md
Normal file
22
wiki/entities/GPT-2.md
Normal file
@@ -0,0 +1,22 @@
|
|||||||
|
# GPT-2
|
||||||
|
|
||||||
|
## Metadata
|
||||||
|
|
||||||
|
- **Type**: Entity
|
||||||
|
- **Category**: AI/LLM/Foundation Models
|
||||||
|
|
||||||
|
## Description
|
||||||
|
|
||||||
|
GPT-2 是 OpenAI 开发的早期大型语言模型,拥有 1.5B(15亿)参数,是早期较大的语言模型代表。在大模型领域,通常以 ≥1B 参数作为"大模型"的门槛,GPT-2 正好处于这一门槛附近,标志着语言模型开始进入"大模型"时代。
|
||||||
|
|
||||||
|
## Details
|
||||||
|
|
||||||
|
- **参数规模**: 1.5B (15亿)
|
||||||
|
- **开发者**: OpenAI
|
||||||
|
- **意义**: 标志着语言模型进入大模型时代的早期里程碑
|
||||||
|
|
||||||
|
## Related Concepts
|
||||||
|
|
||||||
|
- [[LLM]]
|
||||||
|
- [[GPT-3]]
|
||||||
|
- [[DeepSeek]]
|
||||||
22
wiki/entities/GPT-3.md
Normal file
22
wiki/entities/GPT-3.md
Normal file
@@ -0,0 +1,22 @@
|
|||||||
|
# GPT-3
|
||||||
|
|
||||||
|
## Metadata
|
||||||
|
|
||||||
|
- **Type**: Entity
|
||||||
|
- **Category**: AI/LLM/Foundation Models
|
||||||
|
|
||||||
|
## Description
|
||||||
|
|
||||||
|
GPT-3 是 OpenAI 开发的里程碑式大模型,拥有 175B(1750亿)参数,是大模型领域的标杆之作。相比 GPT-2 的 1.5B 参数,GPT-3 的参数规模提升了 100 倍以上,展现了大规模语言模型的强大能力。
|
||||||
|
|
||||||
|
## Details
|
||||||
|
|
||||||
|
- **参数规模**: 175B (1750亿)
|
||||||
|
- **开发者**: OpenAI
|
||||||
|
- **意义**: 大模型领域的标杆,展示了大参数规模带来的能力涌现
|
||||||
|
|
||||||
|
## Related Concepts
|
||||||
|
|
||||||
|
- [[LLM]]
|
||||||
|
- [[GPT-2]]
|
||||||
|
- [[DeepSeek]]
|
||||||
@@ -110,6 +110,8 @@
|
|||||||
- [不谈技术:普通人该怎么在AI时代赚钱](sources/普通人如何在AI时代赚钱.md) — AI 时代赚钱三原则:品味是护城河、端到端优于零件、死亡过滤器筛选真正热爱
|
- [不谈技术:普通人该怎么在AI时代赚钱](sources/普通人如何在AI时代赚钱.md) — AI 时代赚钱三原则:品味是护城河、端到端优于零件、死亡过滤器筛选真正热爱
|
||||||
|
|
||||||
## Entities (2026-04-16 Batch 4)
|
## Entities (2026-04-16 Batch 4)
|
||||||
|
- [GPT-3](entities/GPT-3.md) — OpenAI 175B 参数大模型标杆
|
||||||
|
- [GPT-2](entities/GPT-2.md) — OpenAI 1.5B 参数早期语言模型
|
||||||
- [LaunchDarkly](entities/LaunchDarkly.md) — Feature Flag 管理平台,86% 客户可在一天内恢复;HP/Dior 将回滚从小时级降至秒级
|
- [LaunchDarkly](entities/LaunchDarkly.md) — Feature Flag 管理平台,86% 客户可在一天内恢复;HP/Dior 将回滚从小时级降至秒级
|
||||||
- [HP](entities/HP.md) — 通过 LaunchDarkly 将回滚时间从小时级降至分钟级
|
- [HP](entities/HP.md) — 通过 LaunchDarkly 将回滚时间从小时级降至分钟级
|
||||||
- [Christian Dior](entities/Christian-Dior.md) — 通过 LaunchDarkly 将 15 分钟回滚降至即时开关
|
- [Christian Dior](entities/Christian-Dior.md) — 通过 LaunchDarkly 将 15 分钟回滚降至即时开关
|
||||||
@@ -236,6 +238,8 @@
|
|||||||
- [CodeWeaver](entities/CodeWeaver.md) — 将任意代码库编织为树形 Markdown,简化 AI 上下文注入
|
- [CodeWeaver](entities/CodeWeaver.md) — 将任意代码库编织为树形 Markdown,简化 AI 上下文注入
|
||||||
|
|
||||||
## Concepts (2026-04-16 Batch 4)
|
## Concepts (2026-04-16 Batch 4)
|
||||||
|
- [KV Cache](concepts/KV-Cache.md) — 保存历史 K/V 向量避免重复计算的注意力优化技术
|
||||||
|
- [PagedAttention](concepts/PagedAttention.md) — vLLM 分块注意力机制,页表式 KV Cache 管理
|
||||||
- [RTO](concepts/RTO.md) — Recovery Time Objective,系统最大可容忍停机时间;Feature Flag 将其从小时级降至秒级
|
- [RTO](concepts/RTO.md) — Recovery Time Objective,系统最大可容忍停机时间;Feature Flag 将其从小时级降至秒级
|
||||||
- [RPO](concepts/RPO.md) — Recovery Point Objective,可接受的最大数据丢失量(从故障时刻往前回溯)
|
- [RPO](concepts/RPO.md) — Recovery Point Objective,可接受的最大数据丢失量(从故障时刻往前回溯)
|
||||||
- [Kill Switch](concepts/Kill-Switch.md) — Feature Flag 紧急关闭能力,RTO 保险策略;HP/Dior 案例验证秒级 RTO
|
- [Kill Switch](concepts/Kill-Switch.md) — Feature Flag 紧急关闭能力,RTO 保险策略;HP/Dior 案例验证秒级 RTO
|
||||||
|
|||||||
@@ -1,59 +1,52 @@
|
|||||||
---
|
# 大模型相关术语和框架总结
|
||||||
title: "大模型相关术语和框架总结"
|
|
||||||
type: source
|
|
||||||
tags: [llm, mcp, prompt, rag, token, vllm]
|
|
||||||
date: 2025-12-20
|
|
||||||
---
|
|
||||||
|
|
||||||
## Source File
|
## Metadata
|
||||||
- raw/AI/大模型相关术语和框架总结|LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md
|
|
||||||
|
|
||||||
## Summary
|
- **Date**: 2025-12-20
|
||||||
- 核心主题:大模型(LLM)核心术语与技术框架的科普性梳理
|
- **Source**: https://mp.weixin.qq.com/s/W4rQxUCGT-ALvra2fBwYtg
|
||||||
- 问题域:大模型应用开发中的关键概念理解,包括 LLM、Agent、MCP、RAG、Embedding、LangChain、vLLM 等
|
- **Category**: AI/LLM
|
||||||
- 方法/机制:MCP 协议实现工具调用标准化;RAG 通过检索增强解决幻觉问题;vLLM 通过 PagedAttention 和连续批处理优化推理效率
|
|
||||||
- 结论/价值:为开发者提供大模型技术栈的全景图,降低认知门槛
|
|
||||||
|
|
||||||
## Key Claims
|
## Key Insights
|
||||||
- LLM 以参数规模衡量,≥1B 参数通常被视为大模型门槛
|
|
||||||
- MCP 协议为 LLM 应用提供标准化接口,连接外部数据源和工具
|
- LLM 以参数规模衡量,≥1B 参数通常被视为大模型门槛(GPT-2 有 1.5B,GPT-3 有 175B)
|
||||||
|
- MCP 协议为 LLM 应用提供标准化接口,连接外部数据源和工具,实现工具调用标准化
|
||||||
- 大模型仅输出步骤方法,不执行实际调用,需配合 MCP 才能实现真正自动化
|
- 大模型仅输出步骤方法,不执行实际调用,需配合 MCP 才能实现真正自动化
|
||||||
- RAG 通过检索增强将 LLM 考试正确率从 60% 提升至 90%
|
- RAG 通过检索增强将 LLM 考试正确率从 60% 提升至 90%,有效解决 hallucination 问题
|
||||||
- vLLM 通过 PagedAttention(块式 KV Cache)和连续批处理优化 GPU 利用率
|
- vLLM 通过 PagedAttention(块式 KV Cache)和连续批处理优化 GPU 利用率,提升推理效率
|
||||||
- Token 是 LLM 的基本输入单元,中文约 0.6 token/字符,英文约 0.3 token/字符
|
- Token 是 LLM 的基本输入单元,中文约 0.6 token/字符,英文约 0.3 token/字符
|
||||||
- 数据蒸馏利用大模型生成精简数据,训练小模型逼近大模型效果
|
- 数据蒸馏利用大模型生成精简数据,训练小模型逼近大模型效果
|
||||||
|
|
||||||
## Key Quotes
|
## Summary
|
||||||
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 协议核心约束
|
|
||||||
> "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 语义距离含义
|
|
||||||
|
|
||||||
## Key Concepts
|
大模型(LLM)在今年的热度可以说是现象级的。本文梳理了大模型领域的核心术语,包括 LLM、MCP、RAG、Agent、LangChain、vLLM、Token、数据蒸馏等。LLM 以参数规模衡量,通常 ≥1B 参数被称为大模型。MCP(Model Context Protocol)是开放协议,为 LLM 应用提供标准化接口连接外部数据源和工具。值得注意的是,大模型本身不会执行工具调用,只会输出步骤方法,需要配合 MCP 才能实现真正自动化。
|
||||||
- [[LLM]]:Large Language Model,以参数规模衡量(≥1B 参数)
|
|
||||||
- [[MCP]]:Model Context Protocol,LLM 与外部工具的标准化通信协议
|
RAG(Retrieval-augmented generation)检索增强生成是解决大模型 hallucination(幻觉)问题的关键技术,通过外部知识检索增强生成质量。vLLM 是虚拟大语言模型的开源项目,通过 PagedAttention 和连续批处理两大模块优化 GPU 内存利用,提升推理效率。Embedding 向量化技术将词转化为浮点数字用于计算语义距离,是 RAG 等技术的基础。数据蒸馏则利用高性能大模型生成精简数据,训练小模型以逼近大模型效果。
|
||||||
- [[Agent]]:智能体,大模型 + MCP 工具整合后实现实际任务执行
|
|
||||||
- [[RAG]]:Retrieval-augmented generation,检索增强生成,解决幻觉问题
|
|
||||||
- [[Embedding]]:向量化,将词转化为浮点数字以计算语义距离
|
|
||||||
- [[LangChain]]:快速实现 Agent 的开发框架,提供 LLM 标准接口和工具集成
|
|
||||||
- [[vLLM]]:虚拟大语言模型,通过 PagedAttention 和连续批处理优化推理效率
|
|
||||||
- [[Token]]:LLM 的基本输入单元,中文约 0.6 token/字符
|
|
||||||
- [[数据蒸馏]]:Data Distillation,用大模型生成精简数据训练小模型
|
|
||||||
|
|
||||||
## Key Entities
|
## Key Entities
|
||||||
- [[DeepSeek]]:国产大模型代表(文中提及)
|
|
||||||
- [[Manus]]:AI Agent 产品(文中提及)
|
|
||||||
- [[GPT-2]]:1.5B 参数早期语言模型
|
|
||||||
- [[GPT-3]]:175B 参数大模型
|
|
||||||
|
|
||||||
## Connections
|
- [[GPT-2]]: 1.5B 参数的早期较大语言模型
|
||||||
- [[LLM]] ← 基础层 ← [[MCP]]
|
- [[GPT-3]]: 175B 参数的大模型标杆
|
||||||
- [[MCP]] ← 扩展能力 ← [[Agent]]
|
- [[DeepSeek]]: 国产大模型代表(文中提及)
|
||||||
- [[RAG]] ← 解决幻觉 ← [[LLM]]
|
- [[Manus]]: AI Agent 产品(文中提及)
|
||||||
- [[Embedding]] ← 向量化基础 ← [[RAG]]
|
- [[LangChain]]: 快速实现 Agent 的开发框架,160+ 文档加载器
|
||||||
- [[LangChain]] ← 开发框架 ← [[Agent]]
|
|
||||||
- [[vLLM]] ← 推理优化 ← [[LLM]]
|
|
||||||
|
|
||||||
## Contradictions
|
## Key Concepts
|
||||||
- 与 [[LLMs-RAG-AI-Agent-三个到底什么区别]] 冲突:
|
|
||||||
- 冲突点:RAG 与 Agent 的边界定义
|
- [[LLM]]: Large Language Model,以参数规模衡量(≥1B 参数)
|
||||||
- 当前观点:本文将 Agent 定义为大模型+MCP,RAG 作为独立增强机制
|
- [[MCP]]: Model Context Protocol,LLM 与外部工具的标准化通信协议
|
||||||
- 对方观点:另一文强调 LLM/RAG/Agent 是层级递进关系
|
- [[Agent]]: 智能体,大模型 + MCP 工具整合后实现实际任务执行
|
||||||
|
- [[RAG]]: Retrieval-augmented generation,检索增强生成,解决 hallucination 问题
|
||||||
|
- [[Embedding]]: 向量化,将词转化为浮点数字以计算语义距离
|
||||||
|
- [[LangChain]]: 快速实现 Agent 的开发框架,提供 LLM 标准接口和工具集成
|
||||||
|
- [[vLLM]]: 虚拟大语言模型,通过 PagedAttention 和连续批处理优化推理效率
|
||||||
|
- [[Token]]: LLM 的基本输入单元,中文约 0.6 token/字符
|
||||||
|
- [[数据蒸馏]]: Data Distillation,用大模型生成精简数据训练小模型
|
||||||
|
- [[KV Cache]]: Key-Value Cache,保存历史 K/V 向量避免重复计算
|
||||||
|
- [[PagedAttention]]: vLLM 的分块注意力机制,将 KV Cache 切分为固定大小块管理
|
||||||
|
- [[Hallucination]]: 幻觉,大模型一本正经回答但实际错误的现象
|
||||||
|
|
||||||
|
## Related Sources
|
||||||
|
|
||||||
|
- [[LLMs-RAG-AI-Agent-三个到底什么区别]] — LLM/RAG/Agent 层级关系与协同模式
|
||||||
|
- [[RAG从入门到精通系列1:基础RAG]] — RAG 基础概念与实操流程
|
||||||
|
- [[MCP在Cursor中的集成与应用详解]] — MCP 协议在 Cursor IDE 中的集成方法
|
||||||
|
|||||||
Reference in New Issue
Block a user