Auto-sync: update nexus workspace

This commit is contained in:
2026-04-28 07:26:52 +08:00
parent b83b4e3105
commit 3224ec4787
436 changed files with 17107 additions and 15920 deletions

View File

@@ -0,0 +1,24 @@
---
title: "AISummary"
type: concept
tags: [ai, summary, document-processing]
sources: [我的工具集]
last_updated: 2026-05-11
---
## Definition
AI Summary 是利用 AI 技术对长文本、PDF 或视频内容进行自动摘要和提炼的服务。
## Key Characteristics
- 支持多种内容格式文章、PDF、视频
- 提供多种摘要模式
- 可生成思维导图等可视化输出
- 支持多语言摘要输出
- 大幅降低信息消化时间
## Examples from Sources
- [[Decopy]] 提供 AI Summary Generator支持文章、PDF 和视频的摘要生成,具备多摘要模式、思维导图和多语言输出功能
## Relationships
- 属于 [[AI时代发展策略]] 的信息处理层
- 为知识管理提供高效的内容处理能力

View File

@@ -1,33 +1,34 @@
---
title: "Adversarial Debate Pattern"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Adversarial Debate Pattern
## 定义
多智能体系统的对抗式辩论模式——一个Agent提出方案另一个Agent攻击反驳由第三个Agent裁判决定胜负。核心是用外部批评者和评判者模拟人类的"恐惧"动机。
## 角色
- **Generator**"Here is my plan."(生成方案)
- **Critic**"Here are 3 reasons why that plan sucks."(扮演魔鬼代言人
- **Judge**"The Critic is right. Fix it."(裁判/主持人)
## 核心洞察
LLM是"Yes-Men",一旦开始写作很少自我纠正——需要一个指定的反对者来打破这种惯性。
## 关键机制
- 三方应使用**不同模型**(不同训练/微调/提示),多样性有益
- 顺序执行+循环特性导致速度可能非常慢
- Agent可能陷入无限辩论——可使用**Watchdog**(确定性代码)在时间/次数超阈值时打破循环
## 适用场景
- 安全分析Security Analysis
- 代码审查Code Review
- 高风险内容审核High-Stakes Content Moderation
## 来源
- [[multi-agent-system-reliability]]
---
title: "Adversarial Debate Pattern"
type: concept
tags: []
sources:
- multi-agent-system-reliability
last_updated: 2026-04-28
---
# Adversarial Debate Pattern
## 定义
多智能体系统的对抗式辩论模式——一个Agent提出方案另一个Agent攻击反驳由第三个Agent裁判决定胜负。核心是用外部批评者和评判者模拟人类的"恐惧"动机。
## 角色
- **Generator**"Here is my plan."(生成方案
- **Critic**"Here are 3 reasons why that plan sucks."(扮演魔鬼代言人)
- **Judge**"The Critic is right. Fix it."(裁判/主持人)
## 核心洞察
LLM是"Yes-Men",一旦开始写作很少自我纠正——需要一个指定的反对者来打破这种惯性。
## 关键机制
- 三方应使用**不同模型**(不同训练/微调/提示),多样性有益
- 顺序执行+循环特性导致速度可能非常慢
- Agent可能陷入无限辩论——可使用**Watchdog**(确定性代码)在时间/次数超阈值时打破循环
## 适用场景
- 安全分析Security Analysis
- 代码审查Code Review
- 高风险内容审核High-Stakes Content Moderation
## 来源
- [[multi-agent-system-reliability]]

25
wiki/concepts/Agent.md Normal file
View File

@@ -0,0 +1,25 @@
---
title: "Agent"
type: concept
tags: [agent, llm, automation, mcp]
aliases: [Agent, AI Agent, 智能体, 自主代理]
last_updated: 2025-12-20
---
## Definition
Agent智能体由 [[Large Language Model]] + [[Model Context Protocol|MCP]] + [[Prompt]] 组成实现自动化执行。LLM 给出步骤方法和工具调用指令MCP 负责实际执行。
## Key Facts
- LLM 本身只给出"步骤方法",不会真正执行(如大模型告诉你如何发邮件,但不会自己发)
- Agent 将 LLM 与 MCP 工具整合,实现真正的自动化
- Agent 工作流:输入 Prompt含工具描述→ LLM 返回工具名和参数 → MCP Server 执行 → 返回结果
- 是 [[LangChain]] 等开发框架的核心应用场景
## Connections
- [[Large Language Model]] ← 核心组件 ← [[Agent]]
- [[Model Context Protocol]] ← 执行层 ← [[Agent]]
- [[Prompt]] ← 输入 ← [[Agent]]
- [[LangChain]] ← 用于构建 ← [[Agent]]
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -2,7 +2,9 @@
title: "Agentic AI"
type: concept
tags: []
sources: [designing-for-agentic-ai]
sources:
- designing-for-agentic-ai
- multi-agent-system-reliability
last_updated: 2026-04-27
---

View File

@@ -1,37 +1,38 @@
---
title: "Consensus Voting Pattern"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Consensus Voting Pattern
## 定义
多智能体系统的共识投票模式——将同一任务分配给N个LLM选取出现次数最多的答案作为最终结果。
## 核心公式
若单个模型幻觉概率为 P则N个模型同时幻觉相同谎言的概率为 P^N。
- 示例P=0.220%幻觉率N=3 → 0.2³ = 0.0080.8%
## 核心机制
1. **Spawn N LLMs**N需要通过试验找到成本与可靠性的平衡点
2. **Fan out work**给所有Agent完全相同的任务
3. **Fan in results**:选取最常见的答案
## 关键要求
- Agent之间**无反馈回路**否则群体思维Groupthink和从众效应会扭曲结果
- 理想情况下各Agent使用不同模型降低思维同质化风险
- 实验应像盲测一样进行
## 适用场景
- 事实核查Fact-checking
- 分类任务(如"这是垃圾邮件吗?"
## 缺点
成本高——本质上是将同一任务分配给多个AgentROI需根据任务和失败成本计算。
## 来源
- [[multi-agent-system-reliability]]
- [[Composite SLO]](概率公式类比)
---
title: "Consensus Voting Pattern"
type: concept
tags: []
sources:
- multi-agent-system-reliability
last_updated: 2026-04-28
---
# Consensus Voting Pattern
## 定义
多智能体系统的共识投票模式——将同一任务分配给N个LLM选取出现次数最多的答案作为最终结果。
## 核心公式
若单个模型幻觉概率为 P则N个模型同时幻觉相同谎言的概率为 P^N。
- 示例P=0.220%幻觉率N=3 → 0.2³ = 0.0080.8%
## 核心机制
1. **Spawn N LLMs**N需要通过试验找到成本与可靠性的平衡点
2. **Fan out work**给所有Agent完全相同的任务
3. **Fan in results**:选取最常见的答案
## 关键要求
- Agent之间**无反馈回路**否则群体思维Groupthink和从众效应会扭曲结果
- 理想情况下各Agent使用不同模型降低思维同质化风险
- 实验应像盲测一样进行
## 适用场景
- 事实核查Fact-checking
- 分类任务(如"这是垃圾邮件吗?"
## 缺点
成本高——本质上是将同一任务分配给多个AgentROI需根据任务和失败成本计算。
## 来源
- [[multi-agent-system-reliability]]
- [[Composite SLO]](概率公式类比)

View File

@@ -0,0 +1,23 @@
---
title: "Continuous Batching"
type: concept
tags: [continuous-batching, vllm, inference, gpu]
aliases: [Continuous Batching, 连续批处理, Iteration-Level Scheduling]
last_updated: 2025-12-20
---
## Definition
Continuous Batching连续批处理vLLM 的推理优化技术。与传统的攒满一批再处理不同Continuous Batching 在每个解码步骤(按 Token 迭代都动态组装活跃请求批次GPU 基本满负载运转。
## Key Facts
- 传统批处理:攒满一批再跑,短任务被长任务阻塞(头阻塞问题)
- Continuous Batching每步解码都组装新批次无需等待整批结束即可插入新请求
- 基于 [[PagedAttention]] 的块式内存 + 步进级调度器实现
- 提高 GPU 并发与公平性,充分利用 GPU 算力
## Connections
- [[vLLM]] ← 使用 ← [[Continuous Batching]]
- [[PagedAttention]] ← 协同 ← [[Continuous Batching]]
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -0,0 +1,22 @@
---
title: "Data Distillation"
type: concept
tags: [distillation, model-compression, training, llm]
aliases: [Data Distillation, 数据蒸馏, Knowledge Distillation]
last_updated: 2025-12-20
---
## Definition
Data Distillation数据蒸馏利用高性能的大模型生成精简但有价值的数据使一个小模型可以从中学习并逼近大模型的效果。
## Key Facts
- 核心思想:用大模型作为"教师"Teacher生成高质量训练数据
- 小模型Student从这些数据中学习
- 目标:以更低成本达到接近大模型的效果
- 是模型压缩和高效部署的重要技术手段
## Connections
- [[Large Language Model]] ← 教师模型 ← [[Data Distillation]]
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -0,0 +1,24 @@
---
title: "Embedding"
type: concept
tags: [embedding, vector, nlp, similarity]
aliases: [Embedding, 向量化, Text Embedding, 词向量]
last_updated: 2025-12-20
---
## Definition
Embedding向量化将词或文本转换为浮点数向量的技术。通过计算向量之间的距离欧氏距离、余弦相似度等判断语义关联性。
## Key Facts
- 词的意义取决于上下文语境(如"苹果"可指水果或手机)
- Embedding 将词转化为高维浮点向量
- 语义相近的词在向量空间中距离更近
- 示例:一百和两百的距离近,而一百离一千远,说明一百比一千更接近两百的语义
- 是 [[RAG]] 检索的基础技术
## Connections
- [[RAG]] ← 依赖 ← [[Embedding]]
- [[Vector-Embedding]] ← 同义词 ← [[Embedding]]
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -1,33 +1,54 @@
---
title: "Generation"
type: concept
tags: [rag, generation, llm, prompt, reasoning]
tags: [RAG, LLM, 问答生成]
sources: [rag从入门到精通系列1-基础rag]
last_updated: 2025-01-16
---
## Definition
Generation生成阶段是 RAG Pipeline 的第三步,将用户问题与 Retrieval 阶段检索到的相关文档块组合为 Prompt输入 LLM 生成最终答案。
## Process
1. **Context Assembly**将用户问题Question与 Top-k 个相关文档块Context放入字典结构`{"question": ..., "context": ...}`
2. **Prompt Templating**:通过 PromptTemplate 将 Question 和 Context 组合为结构化的 Prompt String
3. **LLM Inference**:将 Prompt 输入 LLMLLM 严格基于上下文中提供的信息生成答案
4. **Output Parsing**:从 LLM 输出中提取纯字符串结果
Generation生成阶段是 RAG 管道的第三阶段,将用户问题与检索到的相关文档块组合成 Prompt输入 LLM 生成带事实依据的答案。
## Key Requirements for Generation
- **Source Grounding**LLM 必须严格基于检索到的上下文生成,不能凭空发挥
- **Answer Attribution**:理想情况下应提供答案的来源引用(哪些文档块支持该答案)
## Core Process
## In RAG Pipeline
- **上游**:接收 Retrieval 阶段返回的文档块作为上下文
- **下游**:输出最终答案给用户
```
问题 + Top-k 文档块 → PromptTemplate 组装 → LLM 生成 → 返回答案
```
## Frameworks Simplify This
LangChain 和 LlamaIndex 将 Retrieval + Generation 封装为 RAG Chain如 RetrievalQA Chain只需几行代码即可完成端到端 Pipeline。
1. **组装上下文**将问题Question和检索到的文档块Context放入预定义的字典结构
2. **Prompt 模板**:通过 PromptTemplate 将问题+上下文组合成完整的 Prompt String
3. **LLM 生成**:将 Prompt 输入 LLMLLM 基于检索到的知识生成回答
4. **可选链式组合**:使用 LangChain/LlamaIndex 的 Chain 将 Retrieval 和 Generation 串联为统一管道
## Related Concepts
- [[RAG]] — Generation 是 RAG Pipeline 的第三阶段
- [[Retrieval]] — Generation 的上游,提供上下文
- [[PromptTemplate]] — 组装 Question + Context 的模板技术
- [[Chain]] — LangChain 中串联 Retrieval 和 Generation 的抽象
- [[Large Language Model]] — 实际执行生成任务的模型
## Key Prompt Pattern
```
你是一个问答助手。请根据以下参考资料回答用户问题。
如果参考资料中没有相关信息,请如实说明。
参考资料:
{context}
用户问题:{question}
回答:
```
## LangChain Chain
LangChain 和 LlamaIndex 提供了 `RetrievalQA Chain` 等开箱即用的链,可将检索和生成过程自动化串联,避免手动拼装 Prompt。
## Connections
- [[Generation]] ← part_of ← [[RAG]]
- [[Generation]] ← receives_input ← [[Retrieval]]
- [[Generation]] ← uses ← [[Large-Language-Model]]
- [[Generation]] ← uses ← [[Prompt]]
## Aliases
- Answer Generation
- RAG Generation
- LLM Response Generation
- 答案生成

View File

@@ -1,23 +1,24 @@
---
title: "Genetic Algorithm"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Genetic Algorithm
## 定义
遗传算法——传统机器学习中基于自然选择和遗传机制的优化算法,是[[Tree-of-Thoughts]]和[[Knock-out-Pattern]]的ML理论根源。
## 核心要素
1. **遗传表示**Genetic Representation解决方案域的编码模型+上下文)
2. **适应度函数**Fitness Function评估解决方案质量的函数(淘汰赛裁判
## 在多智能体系统中的应用
- [[Knock-out-Pattern]]是遗传算法的精简实现——将适应度函数替换为验证器Validator
- [[Tree-of-Thoughts]]通过验证器持续筛选Agent分支可结合赢家的特征重组生成新Agent
## 来源
- [[multi-agent-system-reliability]]
---
title: "Genetic Algorithm"
type: concept
tags: []
sources:
- multi-agent-system-reliability
last_updated: 2026-04-28
---
# Genetic Algorithm
## 定义
遗传算法——传统机器学习中基于自然选择和遗传机制的优化算法,是[[Tree-of-Thoughts]]和[[Knock-out-Pattern]]的ML理论根源。
## 核心要素
1. **遗传表示**Genetic Representation解决方案域的编码(模型+上下文
2. **适应度函数**Fitness Function评估解决方案质量的函数淘汰赛裁判
## 在多智能体系统中的应用
- [[Knock-out-Pattern]]是遗传算法的精简实现——将适应度函数替换为验证器Validator
- [[Tree-of-Thoughts]]通过验证器持续筛选Agent分支可结合赢家的特征重组生成新Agent
## 来源
- [[multi-agent-system-reliability]]

View File

@@ -0,0 +1,23 @@
---
title: "Hallucination"
type: concept
tags: [hallucination, llm, problem, reliability]
aliases: [Hallucination, 幻觉, 大模型幻觉, LLM 幻觉]
last_updated: 2025-12-20
---
## Definition
Hallucination幻觉大语言模型在面对陌生领域或缺乏足够知识的问题时"一本正经地胡说八道",给出看似合理但实际错误答案的现象。
## Key Facts
- 本质原因LLM 的知识局限于训练数据集,面对未知领域时无法真实"理解",只能基于概率生成最可能的下一个词
- 类比LLM 在陌生领域"只会写一个解字",然后放飞自我
- [[RAG]] 是解决幻觉的主要技术手段之一(通过外部知识引导)
- 其他方法模型微调、Prompt Engineering、Chain-of-Thought
## Connections
- [[RAG]] ← 解决 ← [[Hallucination]]
- [[Large Language Model]] ← 问题 ← [[Hallucination]]
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -1,34 +1,35 @@
---
title: "Hierarchy Agent Pattern"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Hierarchy Agent Pattern
## 定义
多智能体系统的等级制度模式——由一个主管模型Supervisor/Planner制定计划、分解任务、分配工作给专业工作代理Worker再由验证代理Validator检验结果的质量。
## 核心机制
- **Planner**:智能模型(如 Opus将用户目标分解为原子化小步骤
- **Worker**:专门化智能体(通常用更小更快的模型),专注于单一任务
- **Validator**:检查点——工作不合格则退回;可用确定性代码(单元测试/JSON schema或LLM本身
## 为什么有效
依赖图强制协作——Worker必须等Planner分配任务才能开始且无法作弊会被Validator发现
## 适用场景
需要将上下文分开的复杂工作流(如不让"撰稿人"看到"研究员"的原始日志)。
## 优点
- 任务分解清晰,可独立验证每个步骤
- 支持上下文隔离
## 缺点
- 顺序执行Planner→Worker→Validator速度慢、成本高
- Validator建议使用与Planner/Worker不同的模型以提高客观性
## 来源
- [[multi-agent-system-reliability]]
---
title: "Hierarchy Agent Pattern"
type: concept
tags: []
sources:
- multi-agent-system-reliability
last_updated: 2026-04-28
---
# Hierarchy Agent Pattern
## 定义
多智能体系统的等级制度模式——由一个主管模型Supervisor/Planner制定计划、分解任务、分配工作给专业工作代理Worker再由验证代理Validator检验结果的质量。
## 核心机制
- **Planner**:智能模型(如 Opus将用户目标分解为原子化小步骤
- **Worker**:专门化智能体(通常用更小更快的模型),专注于单一任务
- **Validator**:检查点——工作不合格则退回;可用确定性代码(单元测试/JSON schema或LLM本身
## 为什么有效
依赖图强制协作——Worker必须等Planner分配任务才能开始且无法作弊会被Validator发现
## 适用场景
需要将上下文分开的复杂工作流(如不让"撰稿人"看到"研究员"的原始日志)。
## 优点
- 任务分解清晰,可独立验证每个步骤
- 支持上下文隔离
## 缺点
- 顺序执行(PlannerWorker→Validator速度慢、成本高
- Validator建议使用与Planner/Worker不同的模型以提高客观性
## 来源
- [[multi-agent-system-reliability]]

View File

@@ -0,0 +1,24 @@
---
title: "ImageToVideo"
type: concept
tags: [ai, video, image-to-video]
sources: [我的工具集, 14个免费的ai图生视频工具]
last_updated: 2026-05-11
---
## Definition
Image-to-Video 是将静态图片转化为动态视频的 AI 技术,让图片中的元素产生运动效果。
## Key Characteristics
- 将静态图像作为输入,生成包含运动元素的视频
- 广泛应用于电商视频制作、内容创作、广告营销等场景
- 降低视频创作门槛,无需专业设备和拍摄技能
## Examples from Sources
- [[Wavespeed AI]] 提供 Image-to-Video 功能(付费)
- [[Vidu]] 提供 Image-to-Video 功能(月费 ¥8
- [[Hailuo AI]] 提供 Image-to-Video 功能(月费 ¥42
## Relationships
- 属于 [[AI时代发展策略]] 的创意工具层
- 与 [[TextToVideo]] 互补ImageToVideo 从图像生成TextToVideo 从文本生成

View File

@@ -1,29 +1,47 @@
---
title: "Indexing"
type: concept
tags: [rag, indexing, document-processing, embedding]
last_updated: 2025-01-16
---
## Definition
Indexing索引阶段是 RAG Pipeline 的第一步,负责将外部文档转化为可检索的向量表示:文档加载 → 文本切分 → 向量化 → 存入向量数据库。
## Process
1. **Document Loading**:从多种来源(网页/PDF/数据库/API 等)加载原始文档
2. **Text Splitting**:将长文档切分为满足 Embedding Model Context Window 的文本片段Split
3. **Embedding**:使用 Embedding Model 将每个 Split 转化为固定长度的语义向量
4. **Storage**:将向量 + 原始文本块存入 Vector Store向量数据库
## Why Splitting is Necessary
Embedding Model 的 Context Window 有限(通常 512~8192 token无法直接处理整篇长文档因此必须切分。切分策略直接影响检索质量——过小则语义不完整过大则引入噪声。
## In RAG Pipeline
- **前置阶段**Indexing 的输出(向量数据库)是 Retrieval 阶段的输入
- **工具支撑**LangChain 的 DocumentLoader、TextSplitter、EmbeddingVectorStore 组件封装了全流程
## Related Concepts
- [[RAG]] — Indexing 是 RAG Pipeline 的第一阶段
- [[Split]] — 切分后的文档片段
- [[Embedding]] — 向量化的技术
- [[Vector Store]] — 存储向量的数据库
- [[Retrieval]] — Indexing 的下一阶段
---
title: "Indexing"
type: concept
tags: [RAG, 向量数据库, 文档处理]
sources: [rag从入门到精通系列1-基础rag]
last_updated: 2025-01-16
---
## Definition
Indexing索引阶段是 RAG检索增强生成管道的第一阶段负责将外部文档转换为可检索的向量表示并存入向量数据库。
## Core Process
```
原始文档 → 文档加载器 → 文本切分(Split) → Embedding向量化 → 存入Vector Store
```
1. **文档加载Loading**:通过 LangChain 等框架的 Document Loader 从多种来源(网页/本地文件/数据库等)加载原始文档
2. **文本切分Splitting**:将长文档切分成适合 Embedding Model Context Window 的小块Split通常 512~4096 token
3. **向量化Embedding**:使用 Embedding Model如 BAAI/bge 系列)将文本块转换为固定长度的向量表示
4. **存入向量数据库**:将 Embedding Vector 存入 Vector Store如 Qdrant、Chroma、Milvus 等)
## Key Parameters
- **Chunk Size**:每个 Split 的 token 数量,需平衡上下文完整性和模型限制
- **Chunk Overlap**:相邻 Split 之间的重叠 token 数,防止信息在切分边界丢失
- **Embedding Model**:决定向量质量和检索效果的模型(如 BAAI、OpenAI text-embedding-3、BGE 等)
## Tools
- **LangChain**:提供 160+ 文档加载器和向量存储集成
- **LlamaIndex**:专注数据连接和索引的 LLM 应用框架
- **Qdrant**Rust 编写的开源向量数据库,支持过滤和混合检索
## Connections
- [[Indexing]] ← part_of ← [[RAG]]
- [[Indexing]] ← uses ← [[Embedding]]
- [[Indexing]] ← produces ← [[Vector-Store]]
- [[Indexing]] ← depends_on ← [[Context-Window]]
## Aliases
- Document Indexing
- Chunking
- 文档索引

23
wiki/concepts/KV-Cache.md Normal file
View File

@@ -0,0 +1,23 @@
---
title: "KV Cache"
type: concept
tags: [kv-cache, inference, llm, optimization]
aliases: [KV Cache, Key-Value Cache, KV缓存]
last_updated: 2025-12-20
---
## Definition
KV Cache大语言模型推理过程中的缓存机制。KKey和 VValue是由每个 Token 的向量通过线性变换得到的两类向量用于注意力计算。KV Cache 将这些历史 K/V 保存下来,避免后续解码步骤重复计算。
## Key Facts
- 节省计算:无需每次都重新计算历史 Token 的注意力
- 显存开销KV Cache 随上下文长度、层数、头数、维度线性增长,是推理中最大的显存开销来源之一
- [[vLLM]] 的核心优化对象
- [[PagedAttention]] 通过分块管理解决其碎片化问题
## Connections
- [[vLLM]] ← 优化 ← [[KV Cache]]
- [[PagedAttention]] ← 解决 ← [[KV Cache]] 的碎片化问题
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -1,36 +1,37 @@
---
---
title: "Knock-out Pattern"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Knock-out Pattern
## 定义
多智能体系统的淘汰制模式——将任务分配给N个Agent用验证器决定哪些表现最差的被淘汰。核心是用"适者生存"替代LLM不存在的"死亡恐惧"。
## 核心机制
1. 将任务分配给N个Agent
2. 用Validator决定要淘汰哪些Agent
3. 可选用通过验证的Agent特征组合创建新Agent填补空缺
## ML渊源
这是传统机器学习中[[Genetic-Algorithm]](遗传算法)的精简实现,依赖两个要素:
- **遗传表示**:解决方案域(模型+上下文)
- **适应度函数**:淘汰决策依据
## 关键要求
需要**快速验证输出的方式**如单元测试——如果需要人工检查所有分支成本太高。Eval是必要基础设施。
## 适用场景
迭代式智能体工程——主要用于开发/调试阶段,不适合生产环境的高用户负载。
## 与Tree of Thoughts的关系
Tree of Thoughts是Knock-out模式的进阶实现通过验证器持续筛选。
## 来源
- [[multi-agent-system-reliability]]
- [[Genetic-Algorithm]]
---
---
title: "Knock-out Pattern"
type: concept
tags: []
sources:
- multi-agent-system-reliability
last_updated: 2026-04-28
---
# Knock-out Pattern
## 定义
多智能体系统的淘汰制模式——将任务分配给N个Agent用验证器决定哪些表现最差的被淘汰。核心是用"适者生存"替代LLM不存在的"死亡恐惧"。
## 核心机制
1. 将任务分配给N个Agent
2. 用Validator决定要淘汰哪些Agent
3. 可选用通过验证的Agent特征组合创建新Agent填补空缺
## ML渊源
这是传统机器学习中[[Genetic-Algorithm]](遗传算法)的精简实现,依赖两个要素:
- **遗传表示**:解决方案域(模型+上下文)
- **适应度函数**:淘汰决策依据
## 关键要求
需要**快速验证输出的方式**如单元测试——如果需要人工检查所有分支成本太高。Eval是必要基础设施。
## 适用场景
迭代式智能体工程——主要用于开发/调试阶段,不适合生产环境的高用户负载。
## 与Tree of Thoughts的关系
Tree of Thoughts是Knock-out模式的进阶实现通过验证器持续筛选。
## 来源
- [[multi-agent-system-reliability]]
- [[Genetic-Algorithm]]

View File

@@ -1,28 +1,27 @@
---
title: "Large Language Model"
type: concept
tags: [llm, ai, nlp]
last_updated: 2026-04-25
---
## Definition
大语言模型Large Language ModelLLM是基于大规模预训练的深度学习模型能够理解和生成人类语言在推理与生成方面表现出色。
## Core Characteristics
- **知识截止日期**LLM 的知识基于训练数据,存在固定的时间节点,无法自动获取最新信息
- **推理能力强**:能够进行复杂推理、代码生成、文本创作等任务
- **幻觉问题**:可能生成看似合理但实际错误的内容(幻觉
## Role in AI System Architecture
- **思考层**LLM 作为 AI 系统的"天才大脑",负责逻辑推理和内容生成
- [[RAG]] 配合获取实时信息
- 与 [[AI Agent]] 配合实现自主行动
## Related Concepts
- [[RAG]] — 补充实时知识,降低幻觉
- [[AI Agent]] — 提供行动能力
- [[ReAct Pattern]] — 推理-行动协同模式
## Sources
- [[llms-rag-ai-agent-三个到底什么区别]]
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]
---
title: "Large Language Model"
type: concept
tags: [llm, nlp, deep-learning]
aliases: [LLM, 大语言模型, Large Language Model]
last_updated: 2025-12-20
---
## Definition
Large Language Model大语言模型。行业通常以参数规模和训练数据/算力来衡量是否称为"大模型",语言模型常在 ≥1B 参数开始被称为"大模型"。
## Key Facts
- 1B = Billion = 10亿参数
- 常见大模型示例GPT-21.5B、GPT-3175B、GPT-4参数量未公开
- 参数规模是衡量模型能力的重要指标之一
## Connections
- [[Agent]] ← 构建于 ← [[Large Language Model]]
- [[Prompt]] ← 输入给 ← [[Large Language Model]]
- [[Model Context Protocol]] ← 连接 ← [[Large Language Model]]
- [[RAG]] ← 增强 ← [[Large Language Model]]
- [[vLLM]] ← 加速推理 ← [[Large Language Model]]
- [[Hallucination]] ← 问题 ← [[Large Language Model]]
- [[Data Distillation]] ← 蒸馏对象 ← [[Large Language Model]]
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -1,52 +1,24 @@
---
title: "Model Context Protocol"
type: concept
tags: [llm, mcp, protocol, tool-calling]
sources: [大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]
last_updated: 2026-04-25
---
# Model Context Protocol (MCP)
## Aliases
- MCP
- Model Context Protocol
- 模型上下文协议
## Definition
Model Context ProtocolMCP模型上下文协议是一个开放协议旨在为 LLM 应用提供**标准化接口**,使其能够连接外部数据源和各种工具进行交互。
MCP 充当 LLM 与外部世界之间的**标准化通信层**:当 LLM 处理用户请求时需要访问外部信息或功能MCP Client 向 MCP Server 发送请求MCP Server 负责与相应的外部数据源或工具交互,获取数据并按 MCP 协议规范格式化后返回给 LLM。
## Key Insight
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。"
MCP 解决的核心问题:**LLM 只能返回"需要调用什么工具和参数"的描述,不能自己执行**。MCP 提供了 LLM 与工具之间的标准桥梁。
## Architecture
```
User Request
LLM分析请求决定需要哪些工具
MCP Client发送标准化请求
MCP Server与外部数据源/工具交互)
格式化结果
LLM整合结果生成最终响应
```
## Related Concepts
- [[AI Agent]]LLM + MCP + 工具执行 = 真正自主的 Agent
- [[Prompt]]MCP Server 的返回结果作为上下文注入 LLM 的 Prompt
- [[Large Language Model]]MCP 扩展了纯 LLM 的能力边界
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]
---
title: "Model Context Protocol"
type: concept
tags: [mcp, protocol, llm, tool]
aliases: [MCP, Model Context Protocol, 模型上下文协议]
last_updated: 2025-12-20
---
## Definition
Model Context ProtocolMCP模型上下文协议是一个开放协议为 LLM 应用提供标准化接口,使其能够连接外部数据源和各种工具进行交互。
## Key Facts
- MCP Client 向 MCP Server 发送请求
- MCP Server 负责与外部数据源或工具交互,获取数据并按 MCP 协议规范格式化后返回
- **核心约束**:大模型本身不会自己调用外部数据源或工具,只会告诉用户需要调用哪些工具,实际调用需要开发者自己实现
- MCP 是连接 LLM 与真实世界的桥梁
## Connections
- [[Agent]] ← 构建于 ← [[Model Context Protocol]]
- [[Large Language Model]] ← 通过 ← [[Model Context Protocol]] → 连接外部工具
- [[Model Context Protocol]] ← 标准化 ← 工具调用
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -0,0 +1,24 @@
---
title: "PagedAttention"
type: concept
tags: [paged-attention, vllm, inference, optimization]
aliases: [PagedAttention, 分页注意力]
last_updated: 2025-12-20
---
## Definition
PagedAttentionvLLM 的核心注意力机制创新,将 [[KV Cache]] 切分为固定大小的块block并用页表式映射管理类似操作系统的虚拟内存调度方式。
## Key Facts
- 传统方式:为每条序列分配一大块连续内存,导致碎片化和 OOM显存不足
- PagedAttention 解决方案:将 KV Cache 切分为固定大小块,用页表管理,灵活调度
- 优势:避免碎片化、支持动态并发、支持 KV 块复用(多分支/重复前缀场景)
- 显著减少预填充Prefill时间
## Connections
- [[vLLM]] ← 使用 ← [[PagedAttention]]
- [[KV Cache]] ← 优化管理 ← [[PagedAttention]]
- [[Continuous Batching]] ← 协同 ← [[PagedAttention]]
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

24
wiki/concepts/Prompt.md Normal file
View File

@@ -0,0 +1,24 @@
---
title: "Prompt"
type: concept
tags: [prompt, llm, interaction]
aliases: [Prompt, 提示词, Prompt Engineering]
last_updated: 2025-12-20
---
## Definition
Prompt提示词用户输入给大模型的语句。是与大模型交互的唯一入口。
## Key Facts
- Prompt 是用户与大模型之间的通信媒介
- Prompt 的质量直接影响大模型的输出质量
- Prompt Engineering提示词工程研究如何写出更有效的提示词
- Zero-shot、Few-shot、Chain-of-Thought 等是常见的 Prompt 策略
## Connections
- [[Large Language Model]] ← 接收 ← [[Prompt]]
- [[Agent]] ← 使用 ← [[Prompt]]
- [[Large Language Model]] ← 指导 ← [[Prompt]]
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -1,35 +1,26 @@
---
title: "RAG"
type: concept
tags: [rag, retrieval, llm, ai]
last_updated: 2026-04-27
tags: [rag, retrieval, llm, knowledge]
aliases: [RAG, Retrieval-Augmented Generation, 检索增强生成]
last_updated: 2025-12-20
---
## Definition
检索增强生成(Retrieval-Augmented GenerationRAG是将大语言模型LLM链接到外部实时知识库的技术通过检索+生成的流程提升答案准确性和时效性
Retrieval-Augmented GenerationRAG检索增强生成通过从外部知识库检索相关信息来增强大语言模型的回答质量解决模型在陌生领域的幻觉Hallucination问题
## Core Mechanism
1. **检索Retrieval**:当用户提问时,从外部知识库(向量数据库/知识图谱/公司文档中检索最相关的信息块Chunk
2. **增强生成Augmented Generation**:将检索结果与用户问题作为上下文输入 LLM指示其严格基于上下文生成答案
## Key Facts
- 大模型在陌生领域容易产生幻觉,"一本正经胡说八道"
- RAG 通过给模型"一些提示",引导其在正确方向上回答
- 效果案例:正确率从 60% 提升至 90%
- RAG 依赖 [[Embedding]] 技术实现语义检索
- 典型 RAG 流程:用户问题 → 检索外部知识 → 将检索结果注入 Prompt → LLM 生成回答
## Key Benefits
- **知识更新与定制**:无需重新训练即可获取最新信息
- **消除幻觉**:提供事实依据,显著降低胡说八道的风险
- **引用来源**:可追溯信息来源,增加可信度
- **成本效益**:相比微调,成本更低、更新更快
## Role in AI System Architecture
- **认知层**RAG 作为 AI 系统的"记忆系统",负责信息获取与准确性保障
- 为 [[AI Agent]] 提供可信赖的信息来源
## Connections
- [[Embedding]] ← 依赖 ← [[RAG]]
- [[Hallucination]] ← 解决 ← [[RAG]]
- [[Large Language Model]] ← 增强 ← [[RAG]]
- [[LangChain]] ← 支持 ← [[RAG]]
## Sources
- [[llms-rag-ai-agent-三个到底什么区别]]
- [[rag从入门到精通系列1-基础rag]]
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]
- [[knowledge-base-rag]]
## Related Concepts
- [[Large Language Model]] — 被增强的底层模型
- [[AI Agent]] — 依赖 RAG 提供准确信息
- [[Hybrid Search]] — RAG 常用检索策略
- [[Semantic Search]] — 向量检索的核心技术

View File

@@ -1,31 +1,32 @@
---
title: "Reliability Engineering"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Reliability Engineering
## 定义
可靠性工程——将LLM视为分布式系统中不可靠组件的工程哲学而非"有感知"的智能体。
## 核心原则
停止要求模型"小心",开始**强制**其正确:
1. **Constrained约束**:通过架构约束(如依赖图强制执行)而非提示词约束
2. **Verified验证**每个步骤有检查点,不合格则退回
3. **Pruned修剪**淘汰表现最差的Agent
4. **Challenged挑战**通过对抗辩论让错误暴露
## 核心转变
从"AI原型"Prototype AI到"企业级AI"Enterprise AI的范式转变
- ❌ 将LLM视为神奇的聊天机器人
- 将LLM视为不可靠的分布式组件
## 关键人物
- [[Alex Ewerlöf]]可靠性工程专家KTH系统工程硕士27年经验专注将人类系统协作模式迁移至AI架构
## 来源
- [[multi-agent-system-reliability]]
---
title: "Reliability Engineering"
type: concept
tags: []
sources:
- multi-agent-system-reliability
last_updated: 2026-04-28
---
# Reliability Engineering
## 定义
可靠性工程——将LLM视为分布式系统中不可靠组件的工程哲学而非"有感知"的智能体。
## 核心原则
停止要求模型"小心",开始**强制**其正确:
1. **Constrained约束**通过架构约束(如依赖图强制执行)而非提示词约束
2. **Verified验证**每个步骤有检查点,不合格则退回
3. **Pruned修剪**淘汰表现最差的Agent
4. **Challenged挑战**:通过对抗辩论让错误暴露
## 核心转变
从"AI原型"Prototype AI到"企业级AI"Enterprise AI的范式转变
- 将LLM视为神奇的聊天机器人
- ✅ 将LLM视为不可靠的分布式组件
## 关键人物
- [[Alex Ewerlöf]]可靠性工程专家KTH系统工程硕士27年经验专注将人类系统协作模式迁移至AI架构
## 来源
- [[multi-agent-system-reliability]]

View File

@@ -1,34 +1,49 @@
---
title: "Retrieval"
type: concept
tags: [rag, retrieval, vector-search, similarity]
last_updated: 2025-01-16
---
## Definition
Retrieval检索阶段是 RAG Pipeline 的第二步根据用户问题的语义向量Embedding Vector在向量数据库中按相似度找出 Top-k 个最相关的文档块Split
## Process
1. **Query Embedding**:将用户问题通过同一个 Embedding Model 转化为语义向量
2. **Vector Search**:在 Vector Store 中按相似度(余弦相似度/点积/欧氏距离)检索最接近的 k 个向量
3. **Result Selection**返回对应的原始文本块Split作为上下文
## Key Parameters
- **Top-kk值**决定返回多少个最相关的文档块k 过小可能遗漏关键信息k 过大则引入噪声
- **Similarity Metric**:余弦相似度最常用,适合方向性语义匹配;点积适合归一化向量;欧氏距离适合几何距离度量
## In RAG Pipeline
- **上游**:依赖 Indexing 阶段构建的向量数据库
- **下游**:检索结果传递给 Generation 阶段作为上下文
## Challenges
- **语义鸿沟**:用户问题的措辞与文档中相关内容可能不同(词汇不匹配)
- **上下文窗口限制**Top-k 个文档块的总 token 数不能超过 LLM 的 Context Window
- **噪声召回**:向量相似度高但实际无关的文档块可能被召回
## Related Concepts
- [[RAG]] — Retrieval 是 RAG Pipeline 的第二阶段
- [[Vector Store]] — 检索的数据库后端
- [[Embedding]] — 检索的向量来源
- [[Generation]] — Retrieval 的下一阶段,接收检索结果作为上下文
- [[Hybrid Search]] — 结合向量检索与关键词检索以弥补单一向量检索的不足
---
title: "Retrieval"
type: concept
tags: [RAG, 向量检索, 语义搜索]
sources: [rag从入门到精通系列1-基础rag]
last_updated: 2025-01-16
---
## Definition
Retrieval检索阶段是 RAG 管道的第二阶段根据用户问题的语义向量Embedding Vector在向量数据库中检索与之最相似的 Top-k 个文档块。
## Core Process
```
用户问题 → 问题向量化 → Vector Store 相似度检索 → 返回 Top-k 文档块
```
1. **问题向量化**:将用户输入的自然语言问题通过相同的 Embedding Model 转换为向量
2. **相似度计算**Vector Store 计算问题向量与所有文档块向量的相似度(常用方法:余弦相似度、点积、欧氏距离)
3. **返回 Top-k 结果**:返回相似度最高的 k 个文档块作为检索结果
## Similarity Metrics
| 方法 | 适用场景 |
|------|----------|
| 余弦相似度Cosine | 归一化向量,衡量方向相似性 |
| 点积Dot Product | 未归一化向量,兼顾 magnitude |
| 欧氏距离L2 | 几何距离,适用低维空间 |
## Retrieval Strategies
- **Top-k Retrieval**:返回相似度最高的 k 个结果
- **MMRMaximal Marginal Relevance**:平衡相关性和多样性,减少重复信息
- **Hybrid Retrieval**结合关键词检索BM25与向量检索
## Connections
- [[Retrieval]] ← part_of ← [[RAG]]
- [[Retrieval]] ← uses ← [[Vector-Store]]
- [[Retrieval]] ← uses ← [[Embedding]]
- [[Retrieval]] ← feeds_into ← [[Generation]]
## Aliases
- Information Retrieval
- Semantic Search
- 向量检索
- 语义检索

View File

@@ -0,0 +1,22 @@
---
title: "TextToSpeech"
type: concept
tags: [ai, speech, text-to-speech]
sources: [我的工具集]
last_updated: 2026-05-11
---
## Definition
Text-to-SpeechTTS是将文本转换为语音的 AI 技术,也称为语音合成。
## Key Characteristics
- 将书面文本转换为可听的语音输出
- 广泛应用于辅助阅读、语音导航、无障碍访问等场景
- 现代 TTS 系统基于深度学习(如 WaveNet、Tacotron生成自然语音
## Examples from Sources
- [[Google AI Studio]] 提供免费的 Text-to-Speech 服务,支持 Gemini 模型和 Dialog 对话
## Relationships
- 属于 [[AI时代发展策略]] 的创意工具层
- 与 [[TextToVideo]] 互补TTS 处理音频TextToVideo 处理视频

View File

@@ -0,0 +1,24 @@
---
title: "TextToVideo"
type: concept
tags: [ai, video, text-to-video]
sources: [我的工具集, 14个免费的ai图生视频工具]
last_updated: 2026-05-11
---
## Definition
Text-to-Video 是将文本描述转换为视频内容的 AI 技术,属于生成式 AI 的重要分支。
## Key Characteristics
- 根据文本描述生成动态视频内容
- 可结合音频([[TextToSpeech]])实现完整的视频创作流程
- 广泛应用于营销视频、内容创作、广告制作等场景
## Examples from Sources
- [[Vidu]] 提供 Text-to-Video 服务
- [[Hailuo AI]] 提供 Text-to-Video 服务
## Relationships
- 属于 [[AI时代发展策略]] 的创意工具层
- 与 [[ImageToVideo]] 互补TextToVideo 从文本生成ImageToVideo 从图像生成
- 结合 [[TextToSpeech]] 可实现完整的"文字→视频+音频"创作流程

22
wiki/concepts/Token.md Normal file
View File

@@ -0,0 +1,22 @@
---
title: "Token"
type: concept
tags: [token, llm, pricing, metering]
aliases: [Token, Tokens, 分词, 词元]
last_updated: 2025-12-20
---
## Definition
Token大语言模型的基本输入单元可以认为是一个单词或一个短语。是模型计费和性能计算的基础单位。
## Key Facts
- 英文1 个字符 ≈ 0.3 个 Token
- 中文1 个字符 ≈ 0.6 个 Token即中文 Token 消耗约是英文的 2 倍)
- Token 数量直接影响 API 调用成本和响应延迟
- Tokenization分词是将自然语言文本转换为 Token 序列的过程
## Connections
- [[Large Language Model]] ← 计量单位 ← [[Token]]
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -1,25 +1,26 @@
---
title: "Tree of Thoughts"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Tree of Thoughts
## 定义
思维之树——多智能体系统的树形探索模式,是[[Genetic-Algorithm]]遗传算法的精简实现。通过验证器决定哪些Agent分支被淘汰持续筛选直至找到最优解。
## 核心公式
将任务分配给N个Agent → Validator决定淘汰哪些 → 可选用通过验证的Agent特征生成新Agent填补空缺
## 关键要求
- 需要快速验证输出的方式如Eval/单元测试)
- 如果需要人工检查所有分支,太慢且容易出错
## 与Knock-out Pattern的关系
Tree of Thoughts是Knock-out模式的进阶——后者只是淘汰前者还包括通过验证的Agent特征重组。
## 来源
- [[multi-agent-system-reliability]]
---
title: "Tree of Thoughts"
type: concept
tags: []
sources:
- multi-agent-system-reliability
last_updated: 2026-04-28
---
# Tree of Thoughts
## 定义
思维之树——多智能体系统的树形探索模式,是[[Genetic-Algorithm]]遗传算法的精简实现。通过验证器决定哪些Agent分支被淘汰持续筛选直至找到最优解。
## 核心公式
将任务分配给N个Agent → Validator决定淘汰哪些 → 可选用通过验证的Agent特征生成新Agent填补空缺
## 关键要求
- 需要快速验证输出的方式如Eval/单元测试)
- 如果需要人工检查所有分支,太慢且容易出错
## 与Knock-out Pattern的关系
Tree of Thoughts是Knock-out模式的进阶——后者只是淘汰前者还包括通过验证的Agent特征重组。
## 来源
- [[multi-agent-system-reliability]]

View File

@@ -0,0 +1,50 @@
---
title: "Vector-Store"
type: concept
tags: [RAG, 向量数据库, 嵌入向量]
sources: [rag从入门到精通系列1-基础rag]
last_updated: 2025-01-16
---
## Definition
Vector Store向量数据库是专门用于存储和检索高维向量Embedding Vector的数据库系统是 RAG 管道中 Retrieval 阶段的核心基础设施。
## Core Functions
1. **向量存储**:存储文本的 Embedding Vector 表示
2. **相似度检索**:支持多种相似度度量方法(余弦相似度、点积、欧氏距离),返回 Top-k 最相似的结果
3. **元数据过滤**:支持在检索时附加标量过滤条件(如时间、类别等)
4. **混合检索**部分向量数据库支持结合传统关键词检索BM25与向量检索
## Popular Vector Stores
| 名称 | 特点 | 语言 |
|------|------|------|
| Qdrant | 开源高性能支持过滤Rust 编写 | Rust |
| Chroma | 轻量级,适合本地和小规模场景 | Python |
| Milvus | 开源,分布式,成熟生产级 | Go |
| Weaviate | 原生支持混合检索GraphQL 接口 | Go |
| Pinecone | 云原生,全托管,无需运维 | 云服务 |
| pgvector | PostgreSQL 扩展,简化技术栈 | PostgreSQL |
## Indexing in Vector Store
向量数据库通常使用近似最近邻ANN算法构建索引以支持在海量向量中快速检索
- **HNSWHierarchical Navigable Small World**:图索引,高检索精度,中等内存占用
- **IVFInverted File Index**:倒排索引,支持聚类加速
- **PQProduct Quantization**:压缩索引,节省内存
## Connections
- [[Vector-Store]] ← supports ← [[Retrieval]]
- [[Vector-Store]] ← receives_data_from ← [[Indexing]]
- [[Vector-Store]] ← uses ← [[Embedding]]
## Aliases
- Vector Database
- Vector Search Engine
- Embedding Store
- 向量数据库

View File

@@ -0,0 +1,22 @@
---
title: "WebScraper"
type: concept
tags: [ai, data, scraper, web]
sources: [我的工具集]
last_updated: 2026-05-11
---
## Definition
Web Scraper 是用于从网页中自动提取结构化数据的工具或服务。
## Key Characteristics
- 自动化抓取网页内容
- 支持大规模数据采集
- 可用于市场研究、竞品分析、内容聚合等场景
## Examples from Sources
- [[Brightdata]] 提供付费的 Web-Scraper 服务
## Relationships
- 属于 [[AI时代发展策略]] 的数据采集层
- 为 AI Agent 提供数据输入源

View File

@@ -1,37 +1,34 @@
---
title: "九宫格法"
type: concept
tags: ["AI图像生成", "画面一致性", "视频制作"]
sources: ["固定镜头短视频制作的ai全流程解析"]
last_updated: 2026-04-23
---
## 定义
九宫格法是一种 AI 图像生成的一致性控制方法,通过一次性生成 3×3 共九个画面(在同一张图内),确保所有分镜的摄像机机位、角度、景深、光影完全一致,从而解决逐帧独立生成导致画面风格不一致的问题。
## 核心问题
逐帧独立生成图片会导致:
- 光影关系错乱(同一光源在不同帧中方向/强度不一致)
- 空间关系错乱(物体位置、比例关系变化)
- 色彩风格不一致(色调、饱和度、明度不统一)
- 摄像机机位漂移(角度、景深在系列画面中不连贯)
## 九宫格法的工作流程
1. 在 AI 图像生成工具(如 [[Midjourney]] 或 [[Nano Banana]])中设计 3×3 网格布局
2. 一次性输入提示词,同时生成九张连贯的分镜画面
3. 使用工具(如 [[Google AI Studio]]自动将九宫格图裁剪为九张独立的竖屏图9:16 比例)
4. 将九张独立图片配对,通过 [[首尾针动画]] 技术生成连贯视频片段
## 核心优势
- **机位固定**:同一张图内,机位和角度天然一致
- **光影连贯**:同一光源设置贯穿所有分镜
- **构图统一**:景深、视角保持一致
- **效率提升**:一次生成九个画面,减少重复调整
## 在 AI 短视频制作流程中的位置
在 [[固定镜头短视频制作的AI全流程解析]] 中,九宫格法是**第二步(一致性图像生成)**的关键技术:
1. 拆分镜头 → [[Google AI Studio]]
2. **一致性图像生成 → 九宫格法**
3. 首尾针动画制作
4. 快速剪辑
5. 声音设计
---
title: "九宫格法"
type: concept
tags: [AI视频生成, 图像一致性, 分镜]
last_updated: 2026-03-15
---
## Aliases
- 九宫格图像生成
- 3x3 Grid Method
- 9-Grid Image Generation
## Definition
九宫格法是一种保证AI生成视频画面一致性的图像生成技术。通过一次性生成3x3共九个画面确保摄像机机位、拍摄角度、空间关系和光影效果在所有画面中保持高度统一。
## Mechanism
1. 将整个视频内容分解为九个连贯阶段
2. 在同一prompt中使用九宫格布局一次性生成9张图
3. 通过Google AI Studio工具自动检测并裁剪为9张竖屏图9:16比例
4. 各阶段图像保持机位和角度不变,仅细节表现施工进度变化
## Advantages
- 保证画面空间和光影连贯性
- 避免逐帧独立生成导致的光影错乱
- 增强视频整体视觉一致性
- 适合固定机位类视频制作
## Related Concepts
- [[首尾针动画]]:基于生成的图像制作动态动画
- [[固定机位]]:九宫格法的最佳应用场景
- [[时间压缩]]:九宫格法用于表现时间流逝的手法
## Source
- [[固定镜头短视频制作的ai全流程解析]]

View File

@@ -2,7 +2,8 @@
title: "提示词工程"
type: concept
tags: [AI, 提示词, Prompt Engineering]
last_updated: 2025-12-18
sources: [清华出的deepseek使用手册-104页-真的是太厉害了-免费领取, nano-banana-pro-prompting-guide-strategies-1]
last_updated: 2026-04-28
---
## 基本定义
@@ -13,9 +14,11 @@ last_updated: 2025-12-18
- 需要理解AI的工作机制才能写出高效的提示词
- 清华大学《DeepSeek从入门到精通2025》手册系统讲解了提示词设计方法
- 核心教学理念:**"授人以渔"** —— 不只告诉你怎么问,还告诉你为什么这么问
- Nano-Banana Pro 的方法论:**"像创意总监一样思考"** —— 停止标签堆砌使用自然语言和完整句子80% 正确时通过编辑而非重生成
## 相关来源
- [[清华出的deepseek使用手册-104页-真的是太厉害了-免费领取]]
- [[Nano-Banana Pro Prompting Guide & Strategies 1]]:强调"思维模式"Thinking Mode和自然语言提示适用于图像生成领域
## 相关概念
- [[AI幻觉]]与提示词工程密切相关通过好的提示词设计可以有效减少AI幻觉

View File

@@ -1,35 +1,40 @@
---
title: "首尾针动画"
type: concept
tags: ["AI视频生成", "动画技术", "短视频制作"]
sources: ["固定镜头短视频制作的ai全流程解析"]
last_updated: 2026-04-23
---
## 定义
首尾针动画Keyframe Animation是一种 AI 视频生成技术通过上传两个关键帧图片——首针图Start Frame和尾针图End Frame——让 AI 自动补齐两个阶段之间的中间画面,从而产生连贯流畅的动画效果。
## 技术原理
1. **上传首尾两张关键图**:首针图定义起点状态,尾针图定义终点状态
2. **AI 分析两张图之间的变化**:识别主体、背景、光影等元素的差异
3. **自动生成中间过渡帧**AI 在两张图之间插值计算,生成平滑过渡的连续画面
4. **输出连贯视频片段**:最终生成从首针到尾针的完整动画视频
## 在 AI 短视频制作流程中的作用
在 [[固定镜头短视频制作的AI全流程解析]] 描述的五步公式中,**首尾针动画制作**是第三步:
1. 拆分镜头([[Google AI Studio]]
2. 一致性图像生成([[九宫格法]][[Midjourney]]/[[Nano Banana]]
3. **首尾针动画制作**海螺AI/KAI/[[KAI]]
4. 快速剪辑([[剪映]]
5. 声音设计
## 核心优势
- **平滑过渡**AI 自动补齐中间变化,避免手动逐帧制作的繁琐
- **时间压缩**:将漫长的过程(如装修数月)浓缩为几秒的流畅动画
- **自然感强**:过渡效果由 AI 智能计算,比硬切更平滑自然
## 支持工具
- [[海螺AI]]MiniMax
- [[KAI]]
- 即梦AI字节跳动
- 可灵AI快手
---
title: "首尾针动画"
type: concept
tags: [AI视频生成, 动画制作, 关键帧]
last_updated: 2026-03-15
---
## Aliases
- 首尾帧动画
- First-Last Frame Animation
- Keyframe Animation
- Frame Interpolation
## Definition
首尾针动画是一种AI视频生成技术通过上传两个关键帧图片"首针"和"尾针"让AI自动补齐两个阶段之间的变化从而产生平滑过渡动画效果。
## Mechanism
1. 逐个上传九张分镜图像配对制作动画
2. 每对图像包含"首针图"(起始状态)和"尾针图"(结束状态)
3. AI分析两张图像的差异自动生成中间过渡帧
4. 达成画面平滑过渡效果,无需镜头移动
## Technical Requirements
- 需要支持"首尾针"动画模式的AI工具
- 推荐工具海螺AI、多么AI、KAI
- 图片需保持良好的一致性(建议使用九宫格法生成)
## Advantages
- 提供平滑的过渡效果
- 硬切反而更简洁干净
- 无需复杂转场效果
- 适合固定机位、内容连续变化的视频
## Related Concepts
- [[九宫格法]]:生成一致性图像,为首尾针动画提供素材
- [[快节奏剪辑]]:首尾针动画与硬切结合使用
- [[固定机位]]:首尾针动画的最佳应用场景
## Source
- [[固定镜头短视频制作的ai全流程解析]]