Workspace sync: auto commit 2026-04-23 12:02:11

This commit is contained in:
2026-04-23 12:02:11 +08:00
parent 6a8362bb5a
commit c59cc07327
57 changed files with 3427 additions and 30 deletions

File diff suppressed because it is too large Load Diff

View File

@@ -2,7 +2,7 @@
title: "AI Agent"
type: concept
tags: [ai-agent, autonomous, llm]
last_updated: 2025-04-23
last_updated: 2026-04-25
---
## Definition
@@ -31,6 +31,7 @@ AI Agent 通过一个连续循环过程实现其目标:
## Related Concepts
- [[Large Language Model]] — Agent 的"大脑"
- [[RAG]] — Agent 的"记忆"
- [[Model Context Protocol]] — Agent 连接外部工具的标准协议
- [[ReAct Pattern]] — Agent 的推理-行动模式
- [[Agentic AI]] — 具备自主决策能力的 AI 系统
@@ -38,3 +39,4 @@ AI Agent 通过一个连续循环过程实现其目标:
- [[llms-rag-ai-agent-三个到底什么区别]]
- [[designing-for-agentic-ai]]
- [[n8n-full-tutorial-building-ai-agents-in-2025-for-beginners]]
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -0,0 +1,36 @@
---
title: "AI开源平替"
type: concept
tags: [AI, 开源, 替代方案]
last_updated: 2026-04-24
---
## Definition
**AI开源平替**是指以 GitHub 等平台上的开源项目替代闭源商业 AI 产品,通过本地部署或自托管降低使用成本,同时实现数据隐私保护。
## Core Categories来源[[2025-年-11-个神级-ai-开源平替-github-杀疯了]]
| 领域 | 闭源标杆 | 开源平替 | 代表项目 |
|------|---------|---------|---------|
| 大语言模型 | OpenAI GPT、Claude | DeepSeek、Qwen | DeepSeek R1/V3、Qwen 3 |
| AI 生图 | Midjourney V7 | Flux、Stable Diffusion | Flux人体解剖最正确、SD 3.5LoRA 生态最丰富) |
| AI 生视频 | Google Veo 3 | HunyuanVideo | 腾讯混元视频,参数量最大 |
| AI 智能体 | Manus | OpenManus | 规划→执行→反馈 |
| AI 编码 | Cursor | Cline | VS Code 最强自主编程插件 |
| 工作流自动化 | Zapier | n8n、Dify | n8n16 万 Star、DifyLLM 应用平台) |
| AI 搜索 | Perplexity | Perplexica | SearXNG+本地模型 |
| AI 知识库 | NotebookLM | OpenNotebook、SurfSense | 文档问答+播客生成 |
## Key Principles
- 开源平替 ≠ 100% 等价替代,需根据具体场景评估效果
- 本地部署可实现完全数据隐私,无需担心被大公司"炼丹"
- 开源社区迭代速度快,部分领域已实现弯道超车(如 DeepSeek R1 对标 o1
## Related Concepts
- [[AI Agent]] — AI 智能体领域
- [[DeepSeek]] — 国产开源 LLM 代表
- [[n8n]] — 开源工作流自动化
- [[Perplexica]] — AI 搜索开源方案
## Sources
- [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]

View File

@@ -0,0 +1,33 @@
---
title: "Adversarial Debate Pattern"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Adversarial Debate Pattern
## 定义
多智能体系统的对抗式辩论模式——一个Agent提出方案另一个Agent攻击反驳由第三个Agent裁判决定胜负。核心是用外部批评者和评判者模拟人类的"恐惧"动机。
## 角色
- **Generator**"Here is my plan."(生成方案)
- **Critic**"Here are 3 reasons why that plan sucks."(扮演魔鬼代言人)
- **Judge**"The Critic is right. Fix it."(裁判/主持人)
## 核心洞察
LLM是"Yes-Men",一旦开始写作很少自我纠正——需要一个指定的反对者来打破这种惯性。
## 关键机制
- 三方应使用**不同模型**(不同训练/微调/提示),多样性有益
- 顺序执行+循环特性导致速度可能非常慢
- Agent可能陷入无限辩论——可使用**Watchdog**(确定性代码)在时间/次数超阈值时打破循环
## 适用场景
- 安全分析Security Analysis
- 代码审查Code Review
- 高风险内容审核High-Stakes Content Moderation
## 来源
- [[multi-agent-system-reliability]]

View File

@@ -0,0 +1,37 @@
---
title: "Consensus Voting Pattern"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Consensus Voting Pattern
## 定义
多智能体系统的共识投票模式——将同一任务分配给N个LLM选取出现次数最多的答案作为最终结果。
## 核心公式
若单个模型幻觉概率为 P则N个模型同时幻觉相同谎言的概率为 P^N。
- 示例P=0.220%幻觉率N=3 → 0.2³ = 0.0080.8%
## 核心机制
1. **Spawn N LLMs**N需要通过试验找到成本与可靠性的平衡点
2. **Fan out work**给所有Agent完全相同的任务
3. **Fan in results**:选取最常见的答案
## 关键要求
- Agent之间**无反馈回路**否则群体思维Groupthink和从众效应会扭曲结果
- 理想情况下各Agent使用不同模型降低思维同质化风险
- 实验应像盲测一样进行
## 适用场景
- 事实核查Fact-checking
- 分类任务(如"这是垃圾邮件吗?"
## 缺点
成本高——本质上是将同一任务分配给多个AgentROI需根据任务和失败成本计算。
## 来源
- [[multi-agent-system-reliability]]
- [[Composite SLO]](概率公式类比)

View File

@@ -1,21 +1,32 @@
---
title: "Context Window"
type: concept
last_updated: 2026-04-10
tags: [llm, context-window, token, embedding, rag]
last_updated: 2025-01-16
---
## Definition
模型的 Context Window 是指单次 API 请求能处理的最大 token 数量(包括输入 prompt + 历史对话 + 输出 response。超过这个上限就会触发"Context Limit Exceeded"错误
Context Window(上下文窗口)是 LLM 或 Embedding Model 一次性处理的最大 token 数量。超过该限制的内容无法被模型感知,必须切分或截断
## Key Facts
- **DeepSeek-reasoner**: 16K tokens context window
- **MiniMax-M2.7**: 200K tokens context window
- 16K context 模型配合 OpenClaw safeguard 模式预留 16K tokens = 实际可用 0 tokens
## Key Numbers
- **Embedding Model**:通常 512~8192 token如 BAAI/bge 系列)
- **LLM**:差异极大,从 4KGPT-3.5)到 200K+Claude 3不等
## Related
- [[Compaction]]: OpenClaw 通过上下文压缩管理 token 消耗
- [[Model-Fallback]]: 模型切换的触发机制
- [[Agent-Routing-Rules]]: Telegram channel 绑定特定模型的方式
## Practical Impact
### 对 Embedding Model
- 决定单次可 Embedding 的最大文本长度
- 超过则需 Split切分文档
## Sources
- [[养虾日记4-一次「context-limit-exceeded」错误排查-我以为是小问题-结果踩了大坑]]
### 对 LLMGeneration 阶段)
- 决定用户问题 + 检索上下文 + 系统 Prompt 的总 token 预算
- 超过则需截断(可能丢失关键信息)
## Token Estimation
- **英文**1 token ≈ 3~4 个字母
- **中文**1 token ≈ 1 个汉字
## Related Concepts
- [[Split]] — 文档需要切分以满足 Context Window 约束
- [[Embedding]] — Embedding Model 的 Context Window 限制
- [[Token]] — Context Window 的计量单位
- [[Generation]] — LLM 的 Context Window 决定最终可输入的上下文量

View File

@@ -0,0 +1,28 @@
---
title: "Coze Workflow"
type: concept
tags: [ai-agent, workflow, coze]
last_updated: 2026-04-23
---
## Summary
Coze扣子平台的工作流编排能力允许用户通过可视化界面将多个 Bot 和插件串联,实现复杂业务流程的自动化执行。与传统的单 Bot 对话相比Workflow 支持条件分支、循环、变量传递等编程逻辑,适用于需要多步骤处理的业务场景。
## Core Features
- **可视化编排**:拖拽式节点编辑器,无需编程基础
- **多 Bot 串联**:将多个专业 Bot 按顺序或并行组合
- **插件集成**:调用天气、地图、数据库、代码执行等外部工具
- **条件分支**:根据变量值执行不同路径
- **变量管理**:在节点间传递和转换数据
- **输出定制**:控制最终输出的格式和内容
## Use Cases (from Coze Training)
- **滴滴计费解答_WorkFlow**:将计费规则问答 Agent 串联进业务流程
- **骑手招聘助手_WorkFlow**:招聘场景的多步骤自动化处理
- **SONY店员_WorkFlow**:零售门店场景的 AI 客服工作流
## Relationship to General Workflow Engineering
属于 [[Workflow-Engineering]] 在 Coze 平台的具体实现。与 [[n8n]] 的工作流自动化属同一方法论的不同工具平台——Coze 侧重 AI Agent 编排n8n 侧重通用 API 连接与自动化。
## Source
- [[AI 解决方案专家培训课程]]

View File

@@ -0,0 +1,33 @@
---
title: "Generation"
type: concept
tags: [rag, generation, llm, prompt, reasoning]
last_updated: 2025-01-16
---
## Definition
Generation生成阶段是 RAG Pipeline 的第三步,将用户问题与 Retrieval 阶段检索到的相关文档块组合为 Prompt输入 LLM 生成最终答案。
## Process
1. **Context Assembly**将用户问题Question与 Top-k 个相关文档块Context放入字典结构`{"question": ..., "context": ...}`
2. **Prompt Templating**:通过 PromptTemplate 将 Question 和 Context 组合为结构化的 Prompt String
3. **LLM Inference**:将 Prompt 输入 LLMLLM 严格基于上下文中提供的信息生成答案
4. **Output Parsing**:从 LLM 输出中提取纯字符串结果
## Key Requirements for Generation
- **Source Grounding**LLM 必须严格基于检索到的上下文生成,不能凭空发挥
- **Answer Attribution**:理想情况下应提供答案的来源引用(哪些文档块支持该答案)
## In RAG Pipeline
- **上游**:接收 Retrieval 阶段返回的文档块作为上下文
- **下游**:输出最终答案给用户
## Frameworks Simplify This
LangChain 和 LlamaIndex 将 Retrieval + Generation 封装为 RAG Chain如 RetrievalQA Chain只需几行代码即可完成端到端 Pipeline。
## Related Concepts
- [[RAG]] — Generation 是 RAG Pipeline 的第三阶段
- [[Retrieval]] — Generation 的上游,提供上下文
- [[PromptTemplate]] — 组装 Question + Context 的模板技术
- [[Chain]] — LangChain 中串联 Retrieval 和 Generation 的抽象
- [[Large Language Model]] — 实际执行生成任务的模型

View File

@@ -0,0 +1,23 @@
---
title: "Genetic Algorithm"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Genetic Algorithm
## 定义
遗传算法——传统机器学习中基于自然选择和遗传机制的优化算法,是[[Tree-of-Thoughts]]和[[Knock-out-Pattern]]的ML理论根源。
## 核心要素
1. **遗传表示**Genetic Representation解决方案域的编码模型+上下文)
2. **适应度函数**Fitness Function评估解决方案质量的函数淘汰赛裁判
## 在多智能体系统中的应用
- [[Knock-out-Pattern]]是遗传算法的精简实现——将适应度函数替换为验证器Validator
- [[Tree-of-Thoughts]]通过验证器持续筛选Agent分支可结合赢家的特征重组生成新Agent
## 来源
- [[multi-agent-system-reliability]]

View File

@@ -0,0 +1,34 @@
---
title: "Hierarchy Agent Pattern"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Hierarchy Agent Pattern
## 定义
多智能体系统的等级制度模式——由一个主管模型Supervisor/Planner制定计划、分解任务、分配工作给专业工作代理Worker再由验证代理Validator检验结果的质量。
## 核心机制
- **Planner**:智能模型(如 Opus将用户目标分解为原子化小步骤
- **Worker**:专门化智能体(通常用更小更快的模型),专注于单一任务
- **Validator**:检查点——工作不合格则退回;可用确定性代码(单元测试/JSON schema或LLM本身
## 为什么有效
依赖图强制协作——Worker必须等Planner分配任务才能开始且无法作弊会被Validator发现
## 适用场景
需要将上下文分开的复杂工作流(如不让"撰稿人"看到"研究员"的原始日志)。
## 优点
- 任务分解清晰,可独立验证每个步骤
- 支持上下文隔离
## 缺点
- 顺序执行Planner→Worker→Validator速度慢、成本高
- Validator建议使用与Planner/Worker不同的模型以提高客观性
## 来源
- [[multi-agent-system-reliability]]

29
wiki/concepts/Indexing.md Normal file
View File

@@ -0,0 +1,29 @@
---
title: "Indexing"
type: concept
tags: [rag, indexing, document-processing, embedding]
last_updated: 2025-01-16
---
## Definition
Indexing索引阶段是 RAG Pipeline 的第一步,负责将外部文档转化为可检索的向量表示:文档加载 → 文本切分 → 向量化 → 存入向量数据库。
## Process
1. **Document Loading**:从多种来源(网页/PDF/数据库/API 等)加载原始文档
2. **Text Splitting**:将长文档切分为满足 Embedding Model Context Window 的文本片段Split
3. **Embedding**:使用 Embedding Model 将每个 Split 转化为固定长度的语义向量
4. **Storage**:将向量 + 原始文本块存入 Vector Store向量数据库
## Why Splitting is Necessary
Embedding Model 的 Context Window 有限(通常 512~8192 token无法直接处理整篇长文档因此必须切分。切分策略直接影响检索质量——过小则语义不完整过大则引入噪声。
## In RAG Pipeline
- **前置阶段**Indexing 的输出(向量数据库)是 Retrieval 阶段的输入
- **工具支撑**LangChain 的 DocumentLoader、TextSplitter、Embedding、VectorStore 组件封装了全流程
## Related Concepts
- [[RAG]] — Indexing 是 RAG Pipeline 的第一阶段
- [[Split]] — 切分后的文档片段
- [[Embedding]] — 向量化的技术
- [[Vector Store]] — 存储向量的数据库
- [[Retrieval]] — Indexing 的下一阶段

View File

@@ -0,0 +1,36 @@
---
---
title: "Knock-out Pattern"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Knock-out Pattern
## 定义
多智能体系统的淘汰制模式——将任务分配给N个Agent用验证器决定哪些表现最差的被淘汰。核心是用"适者生存"替代LLM不存在的"死亡恐惧"。
## 核心机制
1. 将任务分配给N个Agent
2. 用Validator决定要淘汰哪些Agent
3. 可选用通过验证的Agent特征组合创建新Agent填补空缺
## ML渊源
这是传统机器学习中[[Genetic-Algorithm]](遗传算法)的精简实现,依赖两个要素:
- **遗传表示**:解决方案域(模型+上下文)
- **适应度函数**:淘汰决策依据
## 关键要求
需要**快速验证输出的方式**如单元测试——如果需要人工检查所有分支成本太高。Eval是必要基础设施。
## 适用场景
迭代式智能体工程——主要用于开发/调试阶段,不适合生产环境的高用户负载。
## 与Tree of Thoughts的关系
Tree of Thoughts是Knock-out模式的进阶实现通过验证器持续筛选。
## 来源
- [[multi-agent-system-reliability]]
- [[Genetic-Algorithm]]

View File

@@ -0,0 +1,37 @@
---
title: "LangChain"
type: concept
tags: [llm, framework, agent, development]
sources: [大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]
last_updated: 2026-04-25
---
# LangChain
## Definition
LangChain 是一个快速实现 AI Agent 的开发框架,提供了标准接口,用于:
- 将不同的 LLM 连接在一起
- 与其他工具和数据源的集成
LangChain 降低了构建基于 LLM 的应用程序的开发门槛提供了链式调用Chain、代理Agent、记忆Memory等抽象使开发者能够快速组装复杂的 LLM 应用。
## Relationship to MCP
LangChain 和 [[Model Context Protocol]] 都试图解决"LLM 与外部工具集成"的问题,但层次不同:
- **[[Model Context Protocol]]** 是一个开放协议标准(协议层)
- **LangChain** 是一个应用开发框架(框架层)
LangChain 可视为 MCP 思想的具体实现之一——在 MCP 出现之前LangChain 已是 Agent 开发的事实标准。
## Related Concepts
- [[AI Agent]]LangChain 的核心目标产物
- [[Prompt]]LangChain 中 Chain 的基本输入形式
- [[Model Context Protocol]]:协议层的互补方案
- [[RAG]]LangChain 的重要应用场景之一
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -2,7 +2,7 @@
title: "Large Language Model"
type: concept
tags: [llm, ai, nlp]
last_updated: 2025-04-23
last_updated: 2026-04-25
---
## Definition
@@ -25,3 +25,4 @@ last_updated: 2025-04-23
## Sources
- [[llms-rag-ai-agent-三个到底什么区别]]
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -0,0 +1,52 @@
---
title: "Model Context Protocol"
type: concept
tags: [llm, mcp, protocol, tool-calling]
sources: [大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]
last_updated: 2026-04-25
---
# Model Context Protocol (MCP)
## Aliases
- MCP
- Model Context Protocol
- 模型上下文协议
## Definition
Model Context ProtocolMCP模型上下文协议是一个开放协议旨在为 LLM 应用提供**标准化接口**,使其能够连接外部数据源和各种工具进行交互。
MCP 充当 LLM 与外部世界之间的**标准化通信层**:当 LLM 处理用户请求时需要访问外部信息或功能MCP Client 向 MCP Server 发送请求MCP Server 负责与相应的外部数据源或工具交互,获取数据并按 MCP 协议规范格式化后返回给 LLM。
## Key Insight
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。"
MCP 解决的核心问题:**LLM 只能返回"需要调用什么工具和参数"的描述,不能自己执行**。MCP 提供了 LLM 与工具之间的标准桥梁。
## Architecture
```
User Request
LLM分析请求决定需要哪些工具
MCP Client发送标准化请求
MCP Server与外部数据源/工具交互)
格式化结果
LLM整合结果生成最终响应
```
## Related Concepts
- [[AI Agent]]LLM + MCP + 工具执行 = 真正自主的 Agent
- [[Prompt]]MCP Server 的返回结果作为上下文注入 LLM 的 Prompt
- [[Large Language Model]]MCP 扩展了纯 LLM 的能力边界
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -0,0 +1,31 @@
---
title: "Reliability Engineering"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Reliability Engineering
## 定义
可靠性工程——将LLM视为分布式系统中不可靠组件的工程哲学而非"有感知"的智能体。
## 核心原则
停止要求模型"小心",开始**强制**其正确:
1. **Constrained约束**:通过架构约束(如依赖图强制执行)而非提示词约束
2. **Verified验证**:每个步骤有检查点,不合格则退回
3. **Pruned修剪**淘汰表现最差的Agent
4. **Challenged挑战**:通过对抗辩论让错误暴露
## 核心转变
从"AI原型"Prototype AI到"企业级AI"Enterprise AI的范式转变
- ❌ 将LLM视为神奇的聊天机器人
- ✅ 将LLM视为不可靠的分布式组件
## 关键人物
- [[Alex Ewerlöf]]可靠性工程专家KTH系统工程硕士27年经验专注将人类系统协作模式迁移至AI架构
## 来源
- [[multi-agent-system-reliability]]

View File

@@ -0,0 +1,34 @@
---
title: "Retrieval"
type: concept
tags: [rag, retrieval, vector-search, similarity]
last_updated: 2025-01-16
---
## Definition
Retrieval检索阶段是 RAG Pipeline 的第二步根据用户问题的语义向量Embedding Vector在向量数据库中按相似度找出 Top-k 个最相关的文档块Split
## Process
1. **Query Embedding**:将用户问题通过同一个 Embedding Model 转化为语义向量
2. **Vector Search**:在 Vector Store 中按相似度(余弦相似度/点积/欧氏距离)检索最接近的 k 个向量
3. **Result Selection**返回对应的原始文本块Split作为上下文
## Key Parameters
- **Top-kk值**决定返回多少个最相关的文档块k 过小可能遗漏关键信息k 过大则引入噪声
- **Similarity Metric**:余弦相似度最常用,适合方向性语义匹配;点积适合归一化向量;欧氏距离适合几何距离度量
## In RAG Pipeline
- **上游**:依赖 Indexing 阶段构建的向量数据库
- **下游**:检索结果传递给 Generation 阶段作为上下文
## Challenges
- **语义鸿沟**:用户问题的措辞与文档中相关内容可能不同(词汇不匹配)
- **上下文窗口限制**Top-k 个文档块的总 token 数不能超过 LLM 的 Context Window
- **噪声召回**:向量相似度高但实际无关的文档块可能被召回
## Related Concepts
- [[RAG]] — Retrieval 是 RAG Pipeline 的第二阶段
- [[Vector Store]] — 检索的数据库后端
- [[Embedding]] — 检索的向量来源
- [[Generation]] — Retrieval 的下一阶段,接收检索结果作为上下文
- [[Hybrid Search]] — 结合向量检索与关键词检索以弥补单一向量检索的不足

31
wiki/concepts/Split.md Normal file
View File

@@ -0,0 +1,31 @@
---
title: "Split"
type: concept
tags: [rag, document-processing, chunking, text-splitting]
last_updated: 2025-01-16
---
## Definition
Split文档块/文本片段)是 Indexing 阶段将长文档切分后的产物,每个 Split 的 token 数量满足 Embedding Model 的 Context Window 限制,同时尽可能保持语义完整性。
## Why Splitting Matters
Embedding Model 的 Context Window 有限(通常 512~8192 token无法直接处理整篇长文档因此必须切分。切分质量直接影响检索效果
- **Split 过大**:超过 Context Window 无法处理,即使能处理也引入过多噪声
- **Split 过小**:语义不完整,检索到的片段无法支撑 LLM 生成准确答案
- **Split 不重叠**:相邻片段边界处的重要信息可能被切分点切断
## Common Splitting Strategies
1. **Fixed-size Split**:按固定 token 数切分(简单但可能切断句子)
2. **Sentence-aware Split**:按句子或段落切分(语义更完整)
3. **Recursive Split**:递归地按换行符→句子→单词逐级切分(平衡粒度与完整性)
4. **Semantic Split**:按语义相似度聚类后切分(最理想但实现复杂)
## In RAG Pipeline
- **Indexing 阶段输出**:每个文档切分为多个 Split分别 Embedding 后入库
- **Retrieval 阶段处理**:用户问题检索到的是 Split 粒度的文档块,而非整篇文档
## Related Concepts
- [[Indexing]] — Split 是 Indexing 阶段的产物
- [[Embedding]] — 每个 Split 独立进行向量化
- [[Context Window]] — Split 大小的上限约束

View File

@@ -0,0 +1,25 @@
---
title: "Tree of Thoughts"
type: concept
tags: []
sources: []
last_updated: 2026-04-25
---
# Tree of Thoughts
## 定义
思维之树——多智能体系统的树形探索模式,是[[Genetic-Algorithm]]遗传算法的精简实现。通过验证器决定哪些Agent分支被淘汰持续筛选直至找到最优解。
## 核心公式
将任务分配给N个Agent → Validator决定淘汰哪些 → 可选用通过验证的Agent特征生成新Agent填补空缺
## 关键要求
- 需要快速验证输出的方式如Eval/单元测试)
- 如果需要人工检查所有分支,太慢且容易出错
## 与Knock-out Pattern的关系
Tree of Thoughts是Knock-out模式的进阶——后者只是淘汰前者还包括通过验证的Agent特征重组。
## 来源
- [[multi-agent-system-reliability]]

51
wiki/concepts/vLLM.md Normal file
View File

@@ -0,0 +1,51 @@
---
title: "vLLM"
type: concept
tags: [llm, inference, gpu, optimization, kv-cache]
sources: [大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]
last_updated: 2026-04-25
---
# vLLM
## Aliases
- vLLM
- Virtual Large Language Model
- 虚拟大语言模型
## Definition
vLLM 是由 **vLLM 社区**维护的开源 LLM 推理框架,旨在通过更好地利用 GPU 内存来加快生成式 AI 应用的输出速度,实现高吞吐、低成本的推理服务。
## Core Mechanisms
### PagedAttention分块注意力
传统方法按序列分配一大块连续内存存储 KV Cache导致显存碎片化和 OOM内存溢出
vLLM 的 PagedAttention 将 KV Cache 切分为固定大小的**块block**,用类操作系统的**页表式映射**管理:
- 避免按序列分配连续内存导致的碎片化
- 支持动态并发与显存复用
- 在多分支beam search和重复前缀场景下复用相同前缀产生的 KV 块极大减少预填充prefill时间
### Continuous Batching连续批处理
传统批处理:攒满一批再跑,短任务被长任务阻塞(头阻塞)。
连续批处理:
- 在每个解码步骤(按 token 迭代)都把活跃请求组装成一个批
- 序列长度不同也能高效合批
- GPU 基本满负载运转
- 基于 PagedAttention 的块式内存 + 步进级调度器,无需等待整批结束即可把新请求插入下一步的批次
## Related Concepts
- [[KV Cache]]vLLM 优化的核心对象PagedAttention 将 KV Cache 分块管理
- [[Large Language Model]]vLLM 服务的对象
- [[PagedAttention]]vLLM 提出的注意力机制
- [[Continuous Batching]]vLLM 使用的调度策略
## Sources
- [[大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏]]

View File

@@ -0,0 +1,37 @@
---
title: "九宫格法"
type: concept
tags: ["AI图像生成", "画面一致性", "视频制作"]
sources: ["固定镜头短视频制作的ai全流程解析"]
last_updated: 2026-04-23
---
## 定义
九宫格法是一种 AI 图像生成的一致性控制方法,通过一次性生成 3×3 共九个画面(在同一张图内),确保所有分镜的摄像机机位、角度、景深、光影完全一致,从而解决逐帧独立生成导致画面风格不一致的问题。
## 核心问题
逐帧独立生成图片会导致:
- 光影关系错乱(同一光源在不同帧中方向/强度不一致)
- 空间关系错乱(物体位置、比例关系变化)
- 色彩风格不一致(色调、饱和度、明度不统一)
- 摄像机机位漂移(角度、景深在系列画面中不连贯)
## 九宫格法的工作流程
1. 在 AI 图像生成工具(如 [[Midjourney]] 或 [[Nano Banana]])中设计 3×3 网格布局
2. 一次性输入提示词,同时生成九张连贯的分镜画面
3. 使用工具(如 [[Google AI Studio]]自动将九宫格图裁剪为九张独立的竖屏图9:16 比例)
4. 将九张独立图片配对,通过 [[首尾针动画]] 技术生成连贯视频片段
## 核心优势
- **机位固定**:同一张图内,机位和角度天然一致
- **光影连贯**:同一光源设置贯穿所有分镜
- **构图统一**:景深、视角保持一致
- **效率提升**:一次生成九个画面,减少重复调整
## 在 AI 短视频制作流程中的位置
在 [[固定镜头短视频制作的AI全流程解析]] 中,九宫格法是**第二步(一致性图像生成)**的关键技术:
1. 拆分镜头 → [[Google AI Studio]]
2. **一致性图像生成 → 九宫格法**
3. 首尾针动画制作
4. 快速剪辑
5. 声音设计

View File

@@ -0,0 +1,25 @@
---
title: "固定机位"
type: concept
tags: ["视频制作", "镜头语言", "短视频"]
sources: ["固定镜头短视频制作的ai全流程解析"]
last_updated: 2026-04-23
---
## 定义
固定机位是指摄像机位置在整个拍摄过程中保持完全不变的一种拍摄方式,不使用任何推、拉、摇、移等镜头运动。
## 核心价值
- **画面一致性**:摄像机位置固定使所有画面具有天然的空间和光影连贯性
- **降低设备需求**:无需斯坦尼康、滑轨等复杂摄像设备
- **AI 友好**AI 对固定机位视频的时间推移处理表现优异,适合 AI 生成中间过渡帧
- **内容驱动**:观众注意力完全集中在画面内容变化上,而非镜头语言
## 在 AI 短视频制作中的应用
在 [[固定镜头短视频制作的AI全流程解析]] 中,固定机位是三大核心关键词之一(另外两个是 [[内容连续变化]] 和 [[时间压缩]])。固定机位使 [[九宫格法]] 能够一次性生成风格一致的多个画面,避免逐帧独立生成导致的光影错乱问题。
## 适用场景
- 家装/装修:从毛坯到精装的完整过程
- 产品制作:食品烹饪、手工制作、园艺等
- 建筑变化:四季变化、日出日落等
- 不适合需要丰富镜头语言的叙事性视频

View File

@@ -0,0 +1,35 @@
---
title: "首尾针动画"
type: concept
tags: ["AI视频生成", "动画技术", "短视频制作"]
sources: ["固定镜头短视频制作的ai全流程解析"]
last_updated: 2026-04-23
---
## 定义
首尾针动画Keyframe Animation是一种 AI 视频生成技术通过上传两个关键帧图片——首针图Start Frame和尾针图End Frame——让 AI 自动补齐两个阶段之间的中间画面,从而产生连贯流畅的动画效果。
## 技术原理
1. **上传首尾两张关键图**:首针图定义起点状态,尾针图定义终点状态
2. **AI 分析两张图之间的变化**:识别主体、背景、光影等元素的差异
3. **自动生成中间过渡帧**AI 在两张图之间插值计算,生成平滑过渡的连续画面
4. **输出连贯视频片段**:最终生成从首针到尾针的完整动画视频
## 在 AI 短视频制作流程中的作用
在 [[固定镜头短视频制作的AI全流程解析]] 描述的五步公式中,**首尾针动画制作**是第三步:
1. 拆分镜头([[Google AI Studio]]
2. 一致性图像生成([[九宫格法]][[Midjourney]]/[[Nano Banana]]
3. **首尾针动画制作**海螺AI/KAI/[[KAI]]
4. 快速剪辑([[剪映]]
5. 声音设计
## 核心优势
- **平滑过渡**AI 自动补齐中间变化,避免手动逐帧制作的繁琐
- **时间压缩**:将漫长的过程(如装修数月)浓缩为几秒的流畅动画
- **自然感强**:过渡效果由 AI 智能计算,比硬切更平滑自然
## 支持工具
- [[海螺AI]]MiniMax
- [[KAI]]
- 即梦AI字节跳动
- 可灵AI快手

View File

@@ -0,0 +1,28 @@
---
title: "Alex Ewerlöf"
type: entity
tags: []
sources: []
last_updated: 2026-04-25
---
# Alex Ewerlöf
## 基本信息
- **角色**资深Staff Engineer27年经验KTH瑞典皇家理工学院系统工程硕士
- **专注领域**Reliability Engineering可靠性工程+ Resilient Architecture弹性架构
- **LLM专攻时间**2023年起
- **个人网站**alexewerlof.com
## 核心观点
- 反对拟人化LLM主张将LLM视为分布式系统中不可靠的组件
- 强调架构约束而非提示词约束是提升AI系统可靠性的关键
- 借鉴人类协作系统(军队、公司、国家)的反馈回路与制衡机制设计多智能体系统
## 主要著作
- [[multi-agent-system-reliability]]《Multi-Agent System Reliability》2023-01-09
- SRE系列博客
## Aliases
- Alex Ewerlof
- A. Ewerlöf

25
wiki/entities/Cline.md Normal file
View File

@@ -0,0 +1,25 @@
---
title: "Cline"
type: entity
tags: [AI编码, 开源平替, Cursor, VS-Code]
last_updated: 2026-04-24
---
## Definition
**Cline** 是 VS Code 生态中公认最强大的开源自主编程插件,被广泛认为是 [[Cursor]] 的最佳开源平替。
## Key Characteristics
- 直接嵌入现有 VS Code 工作流,将编辑器变身为能深度理解项目上下文、自动读取/修改文件、运行终端命令的全自动 AI 工程师
- 支持 MCPModel Context Protocol扩展可连接本地数据库或外部工具
- 执行敏感操作(写入文件、运行 Shell 命令)时请求用户授权,兼顾自主性和安全性
- 硬核开发者 2025 年实现本地化 AI 编程的首选工具
## GitHub
- https://github.com/cline/cline
## Related
- [[Cursor]] — Cline 对标的开源平替对象
- [[Claude Code]] — 被定义为"基于终端的 AI Agent",与 Cline 同属 AI 编程工具生态
## Sources
- [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]

39
wiki/entities/Coze.md Normal file
View File

@@ -0,0 +1,39 @@
---
title: "Coze扣子"
type: entity
tags: [ai-agent, platform]
last_updated: 2026-04-23
---
## Aliases
- 扣子
- coze.cn
- coze.com
- Coze
## Summary
字节跳动旗下的 AI Agent智能体低代码开发平台提供 Bot 创建、Workflow 编排、知识库管理、插件系统等完整能力。用户可通过可视化界面快速构建覆盖多行业的 AI Agent无需编程基础。国内版coze.cn和海外版coze.com分别独立运营。
## Key Capabilities
- **Bot智能体**:基于大模型的对话式 Agent支持 Prompt 设定、角色定义、知识库挂载、插件调用
- **Workflow工作流**:可视化编排多个 Bot 和插件,实现复杂业务流程自动化
- **知识库Knowledge Base**:上传文档自动向量化,支持 RAG 检索增强问答
- **插件Plugins**:扩展 Agent 能力,如天气查询、地图、代码执行、数据库查询等
- **Function Call**Agent 可调用外部 API实现真实业务系统集成
## Industry Use Cases
Coze 平台上积累了大量跨行业 Agent Demo包括
- **金融**:客户分层营销助手、智能客服
- **医疗**:分诊助手、影像识别问诊
- **教育**:知识库问答、拍照搜题、组卷出题、知识点掌握评估
- **电商**混剪助手、AI 换衣、抖音直播间自动回复
- **人力资源**招聘打分、面试对练、AI 培训对练
- **泛娱乐**AI 证件照、AI 生成视频工作流
- **在线客服**AI 助教、AI 销售
## Key Links
- Coze 国内版https://www.coze.cn
- Coze 海外版https://www.coze.com
## Source
- [[AI 解决方案专家培训课程]]

View File

@@ -12,7 +12,9 @@ DeepSeek 是一家专注于通用人工智能AGI的中国科技公司
- 深度求索
## Key Products
- **DeepSeek-R1**:开源推理模型,以处理复杂任务见长,在国际 AI 领域备受瞩目
- **DeepSeek-R1**:开源推理模型,以处理复杂任务见长,在国际 AI 领域备受瞩目。2025 年春节爆火,拉开了中国通过开源策略与国外 AI 巨头差异化竞争的叙事
- **DeepSeek-R3**(来自 [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]
- **DeepSeek-V3**:(同上)
## Key People
- [[余梦珑]]DeepSeek 使用手册合作作者

View File

@@ -0,0 +1,36 @@
---
title: "DeepSider"
type: entity
tags: [AI工具, 浏览器插件, Gemini, Claude, GPT]
last_updated: 2026-04-23
---
## Aliases
- DeepSider
- deepsider.ai
## Overview
DeepSider 是一款 Edge 浏览器插件deepsider.ai国内用户可通过该插件直接访问 Nano Banana 2、Gemini 3.0、GPT-5.1 等数十款 AI 大模型,无需特殊网络环境,无需海外账户。
## Key Facts
- **类型**浏览器扩展插件Edge
- **官网**https://deepsider.ai
- **适用平台**Edge 浏览器
- **中文支持**:专为中文用户设计
- **网络要求**:无需特殊网络,无需 VPN
## Supported Models
- GPT5、GPT4.1 全系列(包括 GPT-4o 绘图、GPT5-Codex
- Claude 全系列(包括 Claude Opus
- Gemini 2.5 Pro 全系列
- Grok 全系列
- Nano Banana包括高清图片生成模式
- Sora 2包括最长 25 秒视频生成模式)
## Usage
1. 打开 Edge 浏览器,打开扩展商店
2. 搜索 **deepsider**,安装插件到浏览器
3. 打开 DeepSider 侧边栏,切换到所需模型
## Source
- [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]]

24
wiki/entities/Dify.md Normal file
View File

@@ -0,0 +1,24 @@
---
title: "Dify"
type: entity
tags: [LLM应用, 开源, 工作流自动化, 知识库]
last_updated: 2026-04-24
---
## Definition
**Dify** 是目前市面上最主流的 LLM 应用开发平台,专为企业和个人快速搭建带知识库的 AI 机器人设计。
## Key Characteristics
- 将复杂的模型调试、提示词编排和工作流都做成可视化界面
- 不懂后端代码也能像搭积木一样构建逻辑严密的智能体
- 更像是成熟的 AI 后端中台,能将不稳定的模型变成稳定好用的服务
- 支持知识库集成,可直接集成到产品或团队协作中
## GitHub
- https://github.com/langgenius/dify
## Related
- [[n8n]] — 同为工作流自动化平台Dify 侧重 LLM 应用开发n8n 侧重通用流程自动化
## Sources
- [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]

25
wiki/entities/Flux.md Normal file
View File

@@ -0,0 +1,25 @@
---
title: "Flux"
type: entity
tags: [AI生图, 开源, 扩散模型, Stable-Diffusion]
last_updated: 2026-04-24
---
## Definition
**Flux** 是由前 Stable Diffusion 核心团队成员创立的 AI 生图开源模型,被评价为"开源界的 Midjourney",是目前人体解剖学最正确的开源生图模型。
## Aliases
- Flux AI
- flux (GitHub 小写)
## Key Characteristics
- 出自前 SDStable Diffusion核心团队之手
- 手指生成精度极高,连指甲盖光泽都能还原
- 精准的文字渲染能力能在图像中准确写出指定单词适用于海报、Logo 设计
- 在人体解剖学正确性上领先其他开源模型
## GitHub
- https://github.com/black-forest-labs/flux
## Sources
- [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]

View File

@@ -15,9 +15,12 @@ Google谷歌是全球领先的科技公司隶属于 Alphabet 集团。
- 谷歌
## Key Products
- [[Google AI Studio]] — Google 官方 AI 开发平台,支持 Nano Banana Pro 图像生成
- [[Nano Banana Pro]] — Google 的专业级多模态图像生成模型支持文本渲染、角色一致性、4K 输出和 Google Search 信息锚定
- [[NotebookLM]] — AI 笔记助手,支持文档问答和播客生成
- Google Gemini — 多模态大语言模型
- Google Workspace — 办公套件
- [[Google Colab]] — 云端代码笔记本环境
## Role in This Wiki
NotebookLM 是本文档讨论的标杆产品,所有开源平替均以 NotebookLM 为参照系。
Nano Banana Pro 是本文档讨论的核心图像生成模型Google AI Studio 是其官方使用平台。NotebookLM 是 AI 笔记助手领域的标杆产品,所有开源平替均以为参照系。

View File

@@ -0,0 +1,25 @@
---
title: "HunyuanVideo"
type: entity
tags: [AI生视频, 开源, 腾讯, 混元视频]
last_updated: 2026-04-24
---
## Definition
**HunyuanVideo**(混元视频)是腾讯开源的视频生成模型,是目前开源界参数量最大的视频生成模型之一,对中文 Prompt 的理解能力达到天花板级别。
## Aliases
- 混元视频
- Hunyuan Video
## Key Characteristics
- 参数量最大(开源视频生成模型中),理解提示词能力更强,画面细节更丰富
- 原生支持高分辨率视频生成,清晰度非常高
- 对中文 Prompt 理解是天花板级别,无需费劲写英文提示词
- 动作连贯性强,物体移动符合物理直觉,不易出现鬼畜变形
## GitHub
- https://github.com/Tencent-Hunyuan/HunyuanVideo
## Sources
- [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]

20
wiki/entities/KAI.md Normal file
View File

@@ -0,0 +1,20 @@
---
title: "KAI"
type: entity
tags: ["AI视频生成", "首尾针动画", "AI工具"]
sources: ["固定镜头短视频制作的ai全流程解析"]
last_updated: 2026-04-23
---
## 基本信息
- **类型**AI 视频生成工具(动效类)
- **定位**:支持首尾针动画的视频生成平台
- **应用场景**:将 [[九宫格法]] 生成的连续图像转换为动态视频片段
## 在固定镜头短视频制作流程中的作用
在 [[固定镜头短视频制作的AI全流程解析]] 描述的 AI 短视频制作流程中KAI 属于**动效类**工具,负责将配对的 [[首尾针动画]] 图片转换为连贯的短视频片段。通过 AI Video API 依次生成各阶段视频片段,核心是让画面变化自然而非镜头移动。生成的所有片段最后导入 [[剪映]] 合成。
## 核心能力
- [[首尾针动画]] 技术支持:上传首针图和尾针图,自动补齐中间变化
- 短视频片段逐个生成,确保质量可控
- 生成片段可导入 [[剪映]] 进行最终合成

View File

@@ -0,0 +1,39 @@
---
title: "LangChain"
type: entity
tags: [llm, framework, python, rag, ai]
last_updated: 2025-01-16
---
## Definition
LangChain 是一个用于构建 LLM 应用的 Python/JavaScript 框架提供模块化组件抽象Document Loader、Text Splitter、Embedding、Vector Store、Retriever、Chain、PromptTemplate 等),大幅简化 RAG、Agent 等 LLM 应用的开发。
## Type
- **Category**: AI Framework / 开发框架
- **Website**: python.langchain.com
- **Language**: Python, JavaScript/TypeScript
## Core Components
1. **Document Loader**:从 160+ 不同来源(网页/PDF/Notion/Slack 等)加载文档
2. **Text Splitter**:将长文档切分为满足 Embedding Context Window 的小片段Split
3. **Embedding**:集成多种 Embedding ProviderBAAI/BGE、OpenAI、Cohere 等)
4. **Vector Store**集成多种向量数据库Qdrant、Pinecone、Chroma、FAISS 等)
5. **Retriever**:基于向量相似度的文档检索接口
6. **Chain**:将多个步骤串联执行的抽象,最关键的是 RAG ChainRetrievalQA Chain
7. **PromptTemplate**:将变量、上下文、用户问题组装为 LLM 输入 Prompt 的模板引擎
8. **Memory**:为 Agent 提供对话历史记忆能力
## Key Value
- **降低 RAG 开发门槛**:将 Indexing-Retrieval-Generation 三阶段封装为可复用的组件,开发者无需从零实现向量化和相似度检索
- **Chain 抽象**:通过 LCELLangChain Expression Language声明式组合各组件支持 RAG Chain、Conversation Chain 等开箱即用模式
- **工具生态**:与 LangSmith监控、LangServe部署构成完整应用生命周期支持
## In RAG Context
- [[rag从入门到精通系列1-基础rag]] 中作为核心工具链组件,负责 Indexing 阶段的文档加载/切分/向量化入库,以及 Retrieval + Generation 阶段的 Chain 编排
## Related Concepts
- [[RAG]] — LangChain 的核心应用场景
- [[Indexing]] — LangChain 封装的关键阶段
- [[Retrieval]] — LangChain 的 Retriever 组件
- [[Generation]] — LangChain 的 Chain + PromptTemplate 组件
- [[LlamaIndex]] — 同类竞品框架,各有侧重

24
wiki/entities/Manus.md Normal file
View File

@@ -0,0 +1,24 @@
---
title: "Manus"
type: entity
tags: [AI智能体, 闭源, Meta收购]
last_updated: 2026-04-24
---
## Definition
**Manus** 是 2025 年 AI Agent 领域的年度现象级产品,被称为"定义了 AI Agent 元年的里程碑式存在"。随后被 Meta 以几十亿美金收购。
## Aliases
- Manus AI
## Key Characteristics
- AI Agent 领域的年度现象级产品
- 定义了 2025 年为 AI Agent 元年
- 被 Meta 以数十亿美金收购
## Related
- [[OpenManus]] — Manus 的开源平替
- [[AI Agent]] — Manus 所属的 AI 范畴
## Sources
- [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]

View File

@@ -0,0 +1,23 @@
---
title: "Midjourney"
type: entity
tags: ["AI图像生成", "AI设计工具"]
sources: ["固定镜头短视频制作的ai全流程解析"]
last_updated: 2026-04-23
---
## 基本信息
- **类型**AI 图像生成工具(设计师类)
- **定位**:高质量 AI 图像创作平台,通过 Discord 界面交互
- **应用场景**:将分镜描述转换为一致的图像画面
## 在固定镜头短视频制作流程中的作用
在 [[固定镜头短视频制作的AI全流程解析]] 描述的 AI 短视频制作流程中Midjourney 属于**设计师类**工具,负责将 [[Google AI Studio]] 生成的分镜描述转换为高质量的图像画面。配合 [[九宫格法]] 使用时,可一次性生成 3×3 共九个分镜画面,保证机位与角度一致。
## 核心能力
- 文本提示词驱动的高质量图像生成
- 风格一致性控制,适合系列画面生成
- 丰富的参数调节(宽高比、风格化程度、画质等)
## Aliases
- MJ

View File

@@ -0,0 +1,50 @@
---
title: "Nano Banana 2"
type: entity
tags: [AI图像生成, Google, Gemini, 推理模型]
sources: [全网最全-nano-banana-2-使用指南-2025年12月更新-1]
last_updated: 2026-04-23
---
## Aliases
- Nano Banana 2
- Gemini 3 Pro Image
- Gemini 3.0 Pro 图像生成模型
## Overview
Nano Banana 2 是 Google 发布的最新一代推理型 AI 图像生成模型(正式代号为 Gemini 3 Pro Image在生成图像前会进行内部推理能够自动补完用户提示词的深层次需求在实测中直接碾压一众 AI 绘图模型。
## Key Facts
- **类型**:推理型图像生成模型(多模态)
- **开发商**GoogleAlphabet
- **正式代号**Gemini 3 Pro Image
- **发布时间**2025年12月
- **网络访问**:通过 [[DeepSider]] 插件国内直连使用
## Capabilities
- **推理生成**:在生成图像前进行内部推理,自动补完深层次需求(不同于传统关键词匹配)
- **多语言长文本渲染**:出色的中文界面和长文本准确渲染能力
- **分辨率支持**:输出 1K、2K、4K 原生高分辨率图像
- **多图像组合**:最多可将 14 张输入图像组合为 1 张输出图像
- **高事实准确性**:擅长需要最新知识支持的图像创作
- **最新知识支持**:能够根据最新知识库进行内容填充
## Use Cases
- 中文界面设计渲染
- 科研配图、技术路线图
- 教学插画、儿童绘本
- 电商配图
- 漫画生成
- 顶刊科研配图
- 游戏界面伪造
- 监控录像画面生成
## Access in China
国内用户可通过 [[DeepSider]] 浏览器插件Edge 扩展deepsider.ai直接访问无需特殊网络环境无需海外账户。
## Related Models
- **Nano Banana Pro**Google 早期专业级图像生成模型
- **Gemini 3.0**Gemini 3 系列文本/多模态模型
## Source
- [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]]

View File

@@ -0,0 +1,25 @@
---
title: "OpenManus"
type: entity
tags: [AI智能体, 开源平替, Manus]
last_updated: 2026-04-24
---
## Definition
**OpenManus** 是 [[Manus]] 的开源平替项目,在 Manus 发布后 GitHub 上涌现的开源平替中 Star 数量最高5 万+)。
## Key Characteristics
- 核心逻辑规划Planning→执行Execution→循环反馈
- 可自主打开浏览器,基于 browser-use 或 Playwright 技术在 Google 搜索资料、浏览网页
- 可接收模糊指令并自动拆解步骤逐步执行
- 可在本地沙盒环境中编写并运行 Python 代码,用于数据处理或绘图
## GitHub
- https://github.com/FoundationAgents/OpenManus
## Related
- [[Manus]] — OpenManus 对标的开源平替对象
- [[AI Agent]] — OpenManus 所属的 AI 范畴
## Sources
- [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]

View File

@@ -0,0 +1,25 @@
---
title: "Perplexica"
type: entity
tags: [AI搜索, 开源平替, Perplexity]
last_updated: 2026-04-24
---
## Definition
**Perplexica** 是 [[Perplexity]] 的完全开源免费替代项目,目前已有 2.8K+ Star是公认的功能最接近 Perplexity 的开源方案。
## Key Characteristics
- 完全开源免费,支持本地化部署,无需每月 $20 订阅费
- 不只是聊天机器人,会联网查资料、总结并直接提供答案
- 默认使用 SearXNG 作为搜索源,避开昂贵的 Google 搜索 API 费用,实现低成本甚至零成本抓取全网数据
- 支持 OpenAI 等云端 API也支持接入本地 AI 大模型,适合注重隐私的用户
## GitHub
- https://github.com/ItzCrazyKns/Perplexica
## Related
- [[Perplexity]] — Perplexica 对标的开源平替对象
- [[SearXNG]] — Perplexica 的默认搜索源
## Sources
- [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]

31
wiki/entities/Qdrant.md Normal file
View File

@@ -0,0 +1,31 @@
---
title: "Qdrant"
type: entity
tags: [vector-database, rag, rust, open-source]
last_updated: 2025-01-16
---
## Definition
Qdrant 是用 Rust 编写的开源向量数据库Vector Store提供高效的 Embedding Vector 存储和相似度检索能力支持余弦相似度、欧氏距离等多种度量方式以及过滤Filtering和分组Grouping等高级查询功能。
## Type
- **Category**: 向量数据库 / Vector Database
- **Language**: Rust
- **Website**: qdrant.tech
- **License**: Apache 2.0
## Core Capabilities
1. **向量存储**高维向量Embedding的持久化存储
2. **相似度检索**:余弦相似度、点积、欧氏距离等多种度量方式
3. **Top-k 检索**:根据相似度排序返回最接近的 k 个向量
4. **过滤查询**:支持基于 Payload元数据的预过滤精确定位检索范围
5. **分布式部署**:支持集群模式横向扩展
## In RAG Context
- [[rag从入门到精通系列1-基础rag]] 中作为 Indexing 阶段向量存储后端 + Retrieval 阶段检索引擎
- 与 LangChain 的 Vector Store 接口无缝集成
## Related Concepts
- [[Vector Store]] — Qdrant 属于 Vector Store 的一种实现
- [[RAG]] — Qdrant 是 RAG Pipeline 的基础设施组件
- [[Retrieval]] — Qdrant 提供向量相似度检索能力

22
wiki/entities/Qwen.md Normal file
View File

@@ -0,0 +1,22 @@
---
title: "Qwen"
type: entity
tags: [llm, qwen, alibaba, open-source, generation]
last_updated: 2025-01-16
---
## Definition
Qwen通义千问是阿里巴巴开源的大语言模型系列参数规模覆盖 1.5B 到 72B+ 多个档位,支持中文和英文,提供 API 接口和开源权重下载。
## Type
- **Category**: 大语言模型 / Large Language Model
- **Organization**: Alibaba Cloud阿里云
- **Website**: qwenlm.github.io / modelscope.cn
## Variants Mentioned
- **Qwen 3**(来自 [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]):全尺寸覆盖和极致工具调用能力,开源界的六边形战士,最稳、最全、最能打的基座模型。流水的开源模型,铁打的通义千问
- **Qwen**:作为 RAG Pipeline 中的 Generation 阶段 LLM 使用([[rag从入门到精通系列1-基础rag]] 实战案例)
## Related Concepts
- [[Large Language Model]] — Qwen 属于 LLM 范畴
- [[Generation]] — Qwen 在 RAG Pipeline 中承担生成任务

17
wiki/entities/SONY.md Normal file
View File

@@ -0,0 +1,17 @@
---
title: "SONY"
type: entity
tags: [retail, case-study]
last_updated: 2026-04-23
---
## Summary
日本索尼公司Sony Corporation在 Coze 平台 AI 解决方案培训课程中作为零售场景案例合作方,提供 SONY 门店店员 Agent覆盖零售场景的 AI 客服需求,包括产品咨询、购买建议等。
## Key Use Cases (from Coze Training)
- **SONY门店店员_Chao**Coze Bot通过自然语言与顾客对话提供 SONY 产品咨询和购买建议
- **SONY店员沟通测试prompt**:用于验证 Agent 回复质量的人工打分提示词
- **SONY店员_WorkFlow_Chao**Coze Workflow 版本,将门店店员 Agent 串联进更复杂的业务流程
## Source
- [[AI 解决方案专家培训课程]]

View File

@@ -0,0 +1,28 @@
---
title: "Stable Diffusion"
type: entity
tags: [AI生图, 开源, 扩散模型, LoRA, ControlNet]
last_updated: 2026-04-24
---
## Definition
**Stable Diffusion** 是开源 AI 生图领域的老牌模型,以丰富的 LoRA 和 ControlNet 生态闻名。
## Aliases
- SD
- SD 3.5
## Key Characteristics
- LoRA 和 ControlNet 生态依然最丰富
- 画特定动漫角色或精确控制姿势的首选工具
- SD3.5 优化版本更容易在中端显卡上运行
- "瘦死的骆驼比马大",生态积累深厚
## GitHub
- https://github.com/CompVis/stable-diffusion
## Related
- [[Flux]] — SD 核心团队出品的下一代生图模型,在解剖学正确性上更优
## Sources
- [[2025-年-11-个神级-ai-开源平替-github-杀疯了]]

19
wiki/entities/剪映.md Normal file
View File

@@ -0,0 +1,19 @@
---
title: "剪映"
type: entity
tags: ["视频剪辑", "字节跳动", "短视频工具"]
sources: ["固定镜头短视频制作的ai全流程解析"]
last_updated: 2026-04-23
---
## 基本信息
- **类型**:视频剪辑工具
- **开发商**:字节跳动
- **定位**:面向大众的移动端/桌面端视频剪辑软件
- **应用场景**:最终视频合成、加速处理、转场处理
## 在固定镜头短视频制作流程中的作用
在 [[固定镜头短视频制作的AI全流程解析]] 描述的 AI 短视频制作流程中,剪映是**最后一步**的工具,负责将 [[首尾针动画]] 生成的各阶段视频片段合成完整成片,并完成以下处理:
- 统一加速(推荐 2-4 倍速)
- 硬切(替代复杂转场)
- 画面轻微裁边(如有黑边可稍微放大处理)

16
wiki/entities/滴滴.md Normal file
View File

@@ -0,0 +1,16 @@
---
title: "滴滴"
type: entity
tags: [出行, case-study]
last_updated: 2026-04-23
---
## Summary
滴滴出行是中国领先的移动出行平台,在 Coze 平台 AI 解决方案培训课程中作为出行行业案例合作方,提供滴滴计费规则解答 Agent覆盖出行行业的 AI 客服需求。
## Key Use Cases (from Coze Training)
- **滴滴计费规则解答_Chao**Coze Bot基于 RAG 技术解答滴滴出行计费规则相关问题
- **滴滴计费解答_WorkFlow_Chao**Coze Workflow 版本,将计费规则问答 Agent 串联进工作流
## Source
- [[AI 解决方案专家培训课程]]

View File

@@ -4,6 +4,14 @@
- [Overview](overview.md) — living synthesis
## Sources
- [2026-04-23] [Multi-Agent System Reliability](sources/multi-agent-system-reliability.md)
- [2026-04-23] [全网最全Nano Banana 2 使用指南2025年12月更新](sources/全网最全-nano-banana-2-使用指南-2025年12月更新-1.md)
- [2026-04-23] [2025 年 11 个神级 AI 开源平替GitHub 杀疯了](sources/2025-年-11-个神级-ai-开源平替-github-杀疯了.md)
- [2026-04-23] [AI 解决方案专家培训课程](sources/ai-解决方案专家培训课程.md)
- [2026-04-23] [RAG从入门到精通系列1基础RAG](sources/rag从入门到精通系列1-基础rag.md)
- [2026-04-23] [固定镜头短视频制作的AI全流程解析](sources/固定镜头短视频制作的ai全流程解析.md)
- [2026-04-23] [大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏](sources/大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏.md)
- [2026-04-23] [Nano Banana Pro 提示词指南与策略(上篇)](sources/nano-banana-pro-prompting-guide-strategies-1.md)
- [2026-04-23] [我的工具集](sources/我的工具集.md)
- [2026-04-23] [3.2 万人收藏的 Claude Skills才是 AI 这条路上最值得研究的一套范式!](sources/3-2-万人收藏的-claude-skills-才是-ai-这条路上最值得研究的一套范式.md)
- [2026-04-23] [如何写出完美的Prompt提示词](sources/如何写出完美的prompt-提示词.md)
@@ -336,7 +344,6 @@
- [2026-04-19] [ctp-topic-5-aws-identity-and-access-management-iam](sources/ctp-topic-5-aws-identity-and-access-management-iam.md) — (expected: wiki/sources/ctp-topic-5-aws-identity-and-access-management-iam.md — source missing)
- [2026-04-19] [learning-sessions-identity-governance-vsm-replacement-20231128-160326-meeting-re](sources/learning-sessions-identity-governance-vsm-replacement-20231128-160326-meeting-re.md) — (expected: wiki/sources/learning-sessions-identity-governance-vsm-replacement-20231128-160326-meeting-re.md — source missing)
- [2026-04-19] [public-cloud-learning-sessions-aws-end-user-compute-services-20240430-160120-mee](sources/public-cloud-learning-sessions-aws-end-user-compute-services-20240430-160120-mee.md) — (expected: wiki/sources/public-cloud-learning-sessions-aws-end-user-compute-services-20240430-160120-mee.md — source missing)
- [2026-04-19] [nano-banana-pro-prompting-guide-strategies-1](sources/nano-banana-pro-prompting-guide-strategies-1.md) — (expected: wiki/sources/nano-banana-pro-prompting-guide-strategies-1.md — source missing)
- [2026-04-19] [public-cloud-learning-sessions-applicable-business-analysis-techniques-20240109](sources/public-cloud-learning-sessions-applicable-business-analysis-techniques-20240109.md) — (expected: wiki/sources/public-cloud-learning-sessions-applicable-business-analysis-techniques-20240109.md — source missing)
- [2026-04-19] [public-cloud-learning-sessions-opentext-product-hub-pht-overview-and-qa-20240806](sources/public-cloud-learning-sessions-opentext-product-hub-pht-overview-and-qa-20240806.md) — (expected: wiki/sources/public-cloud-learning-sessions-opentext-product-hub-pht-overview-and-qa-20240806.md — source missing)
- [2026-04-19] [public-cloud-learning-sessions-tagging-standards-for-all-hyperscalers-20240123-1](sources/public-cloud-learning-sessions-tagging-standards-for-all-hyperscalers-20240123-1.md) — (expected: wiki/sources/public-cloud-learning-sessions-tagging-standards-for-all-hyperscalers-20240123-1.md — source missing)
@@ -406,14 +413,7 @@
- [2026-04-18] [scrapy-playwright-抓取tiktok-shop-data](sources/scrapy-playwright-抓取tiktok-shop-data.md) — (expected: wiki/sources/scrapy-playwright-抓取tiktok-shop-data.md — source missing)
- [2026-04-18] [如何利用sora接口实现视频自动化生成工作流](sources/如何利用sora接口实现视频自动化生成工作流.md) — (expected: wiki/sources/如何利用sora接口实现视频自动化生成工作流.md — source missing)
- [2026-04-18] [if-you-have-multiple-interests-do-not-waste-the-next-2-3-years-如果你有多项兴趣爱好-不要浪费接下来的两三年时间](sources/if-you-have-multiple-interests-do-not-waste-the-next-2-3-years-如果你有多项兴趣爱好-不要浪费接下来的两三年时间.md) — (expected: wiki/sources/if-you-have-multiple-interests-do-not-waste-the-next-2-3-years-如果你有多项兴趣爱好-不要浪费接下来的两三年时间.md — source missing)
- [2026-04-18] [我用-gemini-3-一口气做了-10-个应用-附教程](sources/我用-gemini-3-一口气做了-10-个应用-附教程.md) — (expected: wiki/sources/我用-gemini-3-一口气做了-10-个应用-附教程.md — source missing)
- [2026-04-18] [multi-agent-system-reliability](sources/multi-agent-system-reliability.md) — (expected: wiki/sources/multi-agent-system-reliability.md — source missing)
- [2026-04-18] [全网最全-nano-banana-2-使用指南-2025年12月更新-1](sources/全网最全-nano-banana-2-使用指南-2025年12月更新-1.md) — (expected: wiki/sources/全网最全-nano-banana-2-使用指南-2025年12月更新-1.md — source missing)
- [2026-04-18] [2025-年-11-个神级-ai-开源平替-github-杀疯了](sources/2025-年-11-个神级-ai-开源平替-github-杀疯了.md) — (expected: wiki/sources/2025-年-11-个神级-ai-开源平替-github-杀疯了.md — source missing)
- [2026-04-18] [ai-解决方案专家培训课程](sources/ai-解决方案专家培训课程.md) — (expected: wiki/sources/ai-解决方案专家培训课程.md — source missing)
- [2026-04-18] [rag从入门到精通系列1-基础rag](sources/rag从入门到精通系列1-基础rag.md) — (expected: wiki/sources/rag从入门到精通系列1-基础rag.md — source missing)
- [2026-04-18] [固定镜头短视频制作的ai全流程解析](sources/固定镜头短视频制作的ai全流程解析.md) — (expected: wiki/sources/固定镜头短视频制作的ai全流程解析.md — source missing)
- [2026-04-18] [大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏](sources/大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏.md) — (expected: wiki/sources/大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏.md — source missing)
- [2026-04-23] [我用 Gemini 3 一口气做了 10 个应用附教程](sources/我用-gemini-3-一口气做了-10-个应用-附教程.md)
- [Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog](sources/Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog.md) — (expected: wiki/sources/Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog.md — source missing)
- [Expose-hermes-agent-as-an-OpenAI-compatible-API-for-any-frontend](sources/Expose-hermes-agent-as-an-OpenAI-compatible-API-for-any-frontend.md) — (expected: wiki/sources/Expose-hermes-agent-as-an-OpenAI-compatible-API-for-any-frontend.md — source missing)
- [zk-steward](sources/zk-steward.md) — (expected: wiki/sources/zk-steward.md — source missing)
@@ -540,6 +540,7 @@
- [AionUi](entities/AionUi.md)
- [aitmpl.com](entities/aitmpl.com.md)
- [Alertmanager](entities/Alertmanager.md)
- [Alex-Ewerlof](entities/Alex-Ewerlof.md)
- [Alex-Finn](entities/Alex-Finn.md)
- [Amazon-CloudWatch-Logs](entities/Amazon-CloudWatch-Logs.md)
- [Amazon-EventBridge](entities/Amazon-EventBridge.md)
@@ -566,6 +567,7 @@
- [ClawdTalk](entities/ClawdTalk.md)
- [ClawHub](entities/ClawHub.md)
- [clawr.ing](entities/clawr.ing.md)
- [Cline](entities/Cline.md)
- [Clonezilla](entities/Clonezilla.md)
- [cloud-computing](entities/cloud-computing.md)
- [Cloud-Maturity-Model](entities/Cloud-Maturity-Model.md)
@@ -574,11 +576,14 @@
- [CodeCrafters](entities/CodeCrafters.md)
- [CodeWeaver](entities/CodeWeaver.md)
- [containerd](entities/containerd.md)
- [Coze](entities/Coze.md)
- [Cursor](entities/Cursor.md)
- [DanielStefanovic](entities/DanielStefanovic.md)
- [DeepSeek](entities/DeepSeek.md)
- [DeepSider](entities/DeepSider.md)
- [DenchClaw](entities/DenchClaw.md)
- [DevOps-Maturity-Model](entities/DevOps-Maturity-Model.md)
- [Dify](entities/Dify.md)
- [docker-buildx-plugin](entities/docker-buildx-plugin.md)
- [docker-ce](entities/docker-ce.md)
- [docker-compose-plugin](entities/docker-compose-plugin.md)
@@ -588,6 +593,7 @@
- [Docker卷](entities/Docker卷.md)
- [DORA-Metrics](entities/DORA-Metrics.md)
- [DracoVibeCoding](entities/DracoVibeCoding.md)
- [Flux](entities/Flux.md)
- [frp](entities/frp.md)
- [Gamma-AI](entities/Gamma-AI.md)
- [GDPR](entities/GDPR.md)
@@ -603,6 +609,7 @@
- [HIPAA](entities/HIPAA.md)
- [HP-ZBook](entities/HP-ZBook.md)
- [htop](entities/htop.md)
- [HunyuanVideo](entities/HunyuanVideo.md)
- [idea-reality-mcp](entities/idea-reality-mcp.md)
- [InsightsLM](entities/InsightsLM.md)
- [ISO-27001](entities/ISO-27001.md)
@@ -610,21 +617,26 @@
- [Jellyfin](entities/Jellyfin.md)
- [Jira](entities/Jira.md)
- [K3s](entities/K3s.md)
- [KAI](entities/KAI.md)
- [KoolCenter固件服务器](entities/KoolCenter固件服务器.md)
- [Kubernetes](entities/Kubernetes.md)
- [LangChain](entities/LangChain.md)
- [LaunchDarkly](entities/LaunchDarkly.md)
- [Linear](entities/Linear.md)
- [LinuxServer.io](entities/LinuxServer.io.md)
- [Mac-Mini-M4](entities/Mac-Mini-M4.md)
- [Manus](entities/Manus.md)
- [MariaDB](entities/MariaDB.md)
- [MCPModel Context Protocol](entities/MCPModel Context Protocol.md)
- [Memsearch](entities/Memsearch.md)
- [MerlinClash插件](entities/MerlinClash插件.md)
- [Midjourney](entities/Midjourney.md)
- [Milvus](entities/Milvus.md)
- [MinIO](entities/MinIO.md)
- [mission-center](entities/mission-center.md)
- [n8n](entities/n8n.md)
- [n8n-mcp](entities/n8n-mcp.md)
- [Nano Banana 2](entities/Nano Banana 2.md)
- [Navidrome](entities/Navidrome.md)
- [Netdata](entities/Netdata.md)
- [NicholasCarlini](entities/NicholasCarlini.md)
@@ -641,14 +653,18 @@
- [OpenClaw](entities/OpenClaw.md)
- [openclaw-n8n-stack](entities/openclaw-n8n-stack.md)
- [OpenCode](entities/OpenCode.md)
- [OpenManus](entities/OpenManus.md)
- [OpenNotebook](entities/OpenNotebook.md)
- [PageLM](entities/PageLM.md)
- [Perplexica](entities/Perplexica.md)
- [PingMe](entities/PingMe.md)
- [Podcastfy](entities/Podcastfy.md)
- [Portainer](entities/Portainer.md)
- [Prismer-AI](entities/Prismer-AI.md)
- [Prometheus](entities/Prometheus.md)
- [Public-Cloud-Provider](entities/Public-Cloud-Provider.md)
- [Qdrant](entities/Qdrant.md)
- [Qwen](entities/Qwen.md)
- [RackNerd](entities/RackNerd.md)
- [Raj-Vardhan-Singh](entities/Raj-Vardhan-Singh.md)
- [Recapio](entities/Recapio.md)
@@ -659,7 +675,9 @@
- [shenwei](entities/shenwei.md)
- [Simon-Hoiberg](entities/Simon-Hoiberg.md)
- [Slack](entities/Slack.md)
- [SONY](entities/SONY.md)
- [SparkryAI](entities/SparkryAI.md)
- [Stable-Diffusion](entities/Stable-Diffusion.md)
- [stacer](entities/stacer.md)
- [SurfSense](entities/SurfSense.md)
- [Synology-NAS-DS718](entities/Synology-NAS-DS718.md)
@@ -681,8 +699,10 @@
- [WildCard](entities/WildCard.md)
- [Zipline](entities/Zipline.md)
- [余梦珑](entities/余梦珑.md)
- [剪映](entities/剪映.md)
- [机场](entities/机场.md)
- [梅林固件](entities/梅林固件.md)
- [滴滴](entities/滴滴.md)
- [盖伊亨德里克斯](entities/盖伊亨德里克斯.md)
- [矿神源](entities/矿神源.md)
- [网件RAX50](entities/网件RAX50.md)
@@ -692,6 +712,7 @@
- [ActionItemTracking](concepts/ActionItemTracking.md)
- [Active-Accountability](concepts/Active-Accountability.md)
- [Adaptive-Tone](concepts/Adaptive-Tone.md)
- [Adversarial-Debate-Pattern](concepts/Adversarial-Debate-Pattern.md)
- [Agent-Build-Gate](concepts/Agent-Build-Gate.md)
- [Agent-Driven-Market-Research](concepts/Agent-Driven-Market-Research.md)
- [Agent-Memory](concepts/Agent-Memory.md)
@@ -709,6 +730,7 @@
- [AIOps](concepts/AIOps.md)
- [AI代理](concepts/AI代理.md)
- [AI图生视频](concepts/AI图生视频.md)
- [AI开源平替](concepts/AI开源平替.md)
- [AI文生视频](concepts/AI文生视频.md)
- [AI簡報工作流](concepts/AI簡報工作流.md)
- [Alerting](concepts/Alerting.md)
@@ -766,6 +788,7 @@
- [Competition-Analysis](concepts/Competition-Analysis.md)
- [Compliance-Automation](concepts/Compliance-Automation.md)
- [Configuration-Management](concepts/Configuration-Management.md)
- [Consensus-Voting-Pattern](concepts/Consensus-Voting-Pattern.md)
- [Content Automation](concepts/Content Automation.md)
- [Content-Hashing](concepts/Content-Hashing.md)
- [Content-Ingestion](concepts/Content-Ingestion.md)
@@ -775,6 +798,7 @@
- [Conversational-Interface](concepts/Conversational-Interface.md)
- [Cost-Optimization](concepts/Cost-Optimization.md)
- [CoworkWorkspace](concepts/CoworkWorkspace.md)
- [Coze-Workflow](concepts/Coze-Workflow.md)
- [Credential-Isolation](concepts/Credential-Isolation.md)
- [Credit-Efficient-Processing](concepts/Credit-Efficient-Processing.md)
- [Cron定时任务](concepts/Cron定时任务.md)
@@ -828,8 +852,10 @@
- [Full-Draft-Generation](concepts/Full-Draft-Generation.md)
- [Gatekeeper](concepts/Gatekeeper.md)
- [GDM3](concepts/GDM3.md)
- [Generation](concepts/Generation.md)
- [Generator](concepts/Generator.md)
- [Generator-Space](concepts/Generator-Space.md)
- [Genetic-Algorithm](concepts/Genetic-Algorithm.md)
- [GitAsAuditLog](concepts/GitAsAuditLog.md)
- [GitHub-Release-Monitoring](concepts/GitHub-Release-Monitoring.md)
- [GitOps](concepts/GitOps.md)
@@ -838,6 +864,7 @@
- [Headless-服务器](concepts/Headless-服务器.md)
- [Heartbeat-Monitoring](concepts/Heartbeat-Monitoring.md)
- [Hidden-Failure-Paths](concepts/Hidden-Failure-Paths.md)
- [Hierarchy-Agent-Pattern](concepts/Hierarchy-Agent-Pattern.md)
- [high-availability](concepts/high-availability.md)
- [HouseholdInventoryTracking](concepts/HouseholdInventoryTracking.md)
- [HTTPS自动化证书](concepts/HTTPS自动化证书.md)
@@ -850,6 +877,7 @@
- [Ikigai框架](concepts/Ikigai框架.md)
- [Immutable-Infrastructure](concepts/Immutable-Infrastructure.md)
- [Incident-Management](concepts/Incident-Management.md)
- [Indexing](concepts/Indexing.md)
- [Infrastructure-as-Code](concepts/Infrastructure-as-Code.md)
- [Intent-Classification](concepts/Intent-Classification.md)
- [Intentional-Cloud-Strategy](concepts/Intentional-Cloud-Strategy.md)
@@ -861,7 +889,9 @@
- [JFFS双清](concepts/JFFS双清.md)
- [Keyword-Based-Monitoring](concepts/Keyword-Based-Monitoring.md)
- [Kill-Switch](concepts/Kill-Switch.md)
- [Knock-out-Pattern](concepts/Knock-out-Pattern.md)
- [Knowledge-Base-RAG](concepts/Knowledge-Base-RAG.md)
- [LangChain](concepts/LangChain.md)
- [Language-Detection](concepts/Language-Detection.md)
- [Large-Language-Model](concepts/Large-Language-Model.md)
- [Last-30-Days-Method](concepts/Last-30-Days-Method.md)
@@ -881,6 +911,7 @@
- [MeetingNotes](concepts/MeetingNotes.md)
- [MEMORY.md](concepts/MEMORY.md.md)
- [Micro-Recovery](concepts/Micro-Recovery.md)
- [Model-Context-Protocol](concepts/Model-Context-Protocol.md)
- [Model-Fallback](concepts/Model-Fallback.md)
- [Morning-Briefing](concepts/Morning-Briefing.md)
- [MTTA](concepts/MTTA.md)
@@ -938,9 +969,11 @@
- [Recursive-Self-Optimization](concepts/Recursive-Self-Optimization.md)
- [Redis缓存](concepts/Redis缓存.md)
- [Release-Management](concepts/Release-Management.md)
- [Reliability-Engineering](concepts/Reliability-Engineering.md)
- [Remote-SSH](concepts/Remote-SSH.md)
- [RemoteDevelopment](concepts/RemoteDevelopment.md)
- [RemoteRescuePattern](concepts/RemoteRescuePattern.md)
- [Retrieval](concepts/Retrieval.md)
- [Reviewer](concepts/Reviewer.md)
- [Rightsizing](concepts/Rightsizing.md)
- [Risk-Mitigation](concepts/Risk-Mitigation.md)
@@ -979,6 +1012,7 @@
- [Software-Assurance-Maturity-Model](concepts/Software-Assurance-Maturity-Model.md)
- [SOUL.md](concepts/SOUL.md.md)
- [Source-Grounding](concepts/Source-Grounding.md)
- [Split](concepts/Split.md)
- [SSE-Server-Sent-Events](concepts/SSE-Server-Sent-Events.md)
- [StackSets-Deployment-Visibility](concepts/StackSets-Deployment-Visibility.md)
- [Startup-MVP-Pipeline](concepts/Startup-MVP-Pipeline.md)
@@ -1006,6 +1040,7 @@
- [totp](concepts/totp.md)
- [Transcript-Based-Summarization](concepts/Transcript-Based-Summarization.md)
- [TranscriptProcessing](concepts/TranscriptProcessing.md)
- [Tree-of-Thoughts](concepts/Tree-of-Thoughts.md)
- [tui](concepts/tui.md)
- [Two-Way-Voice-Conversation](concepts/Two-Way-Voice-Conversation.md)
- [UEFI-Only](concepts/UEFI-Only.md)
@@ -1016,6 +1051,7 @@
- [Vendor-Lock-In](concepts/Vendor-Lock-In.md)
- [Vibe-Coding](concepts/Vibe-Coding.md)
- [Visual-Debugging](concepts/Visual-Debugging.md)
- [vLLM](concepts/vLLM.md)
- [Voice-Interface](concepts/Voice-Interface.md)
- [Voice-Notification-Channel](concepts/Voice-Notification-Channel.md)
- [Vulnerability-Scanning](concepts/Vulnerability-Scanning.md)
@@ -1037,6 +1073,7 @@
- [上下文刷新](concepts/上下文刷新.md)
- [上下文压缩](concepts/上下文压缩.md)
- [个人品牌](concepts/个人品牌.md)
- [九宫格法](concepts/九宫格法.md)
- [云盘挂载](concepts/云盘挂载.md)
- [交接协议](concepts/交接协议.md)
- [产品四层级体系](concepts/产品四层级体系.md)
@@ -1051,6 +1088,7 @@
- [启动序列](concepts/启动序列.md)
- [四个心理陷阱](concepts/四个心理陷阱.md)
- [固件刷入](concepts/固件刷入.md)
- [固定机位](concepts/固定机位.md)
- [图床](concepts/图床.md)
- [增量备份](concepts/增量备份.md)
- [天才地带](concepts/天才地带.md)
@@ -1097,5 +1135,6 @@
- [进程管理](concepts/进程管理.md)
- [逻辑备份](concepts/逻辑备份.md)
- [销售漏斗](concepts/销售漏斗.md)
- [首尾针动画](concepts/首尾针动画.md)
## Syntheses

View File

@@ -1,4 +1,113 @@
## [2026-04-24] ingest | 我的工具集
## [2026-04-25] ingest | Multi-Agent System Reliability
- Source file: AI/Multi-Agent System Reliability.md
- Status: ✅ 成功摄入
- Summary: 介绍4种提升多智能体系统可靠性的架构模式Hierarchy/Consensus/Adversarial Debate/Knock-out核心主张停止拟人化LLM将其视为分布式系统中不可靠的组件通过架构约束而非提示词约束强制正确性
- Concepts created: [[Hierarchy-Agent-Pattern]], [[Consensus-Voting-Pattern]], [[Adversarial-Debate-Pattern]], [[Knock-out-Pattern]], [[Tree-of-Thoughts]], [[Genetic-Algorithm]], [[Reliability-Engineering]]
- Entities created: [[Alex Ewerlöf]]
- Entities updated: 无Alex Ewerlöf 为新实体)
- Source page: wiki/sources/multi-agent-system-reliability.md
- Notes:
- 新增 1 个 Source Page、1 个 Entity 页面、7 个 Concept 页面
- Alex Ewerlöf Entity 在源文件中出现 ≥2 次(作者署名+引用),符合创建条件
- 7 个 Concept 均符合"可抽象、可复用"原则,全部创建独立页面
- 冲突检测:与 [[Designing for Agentic AI]] 互补而非冲突;与 [[Recursive Self-Optimization]] 共享自引用结构思想;与 [[Genetic-Algorithm]] 有明确关联Knock-out 是 GA 的精简实现)
- 已在 overview.md Key Concepts 列表添加所有 7 个新概念
- 已在 overview.md Key Entities 列表添加 [[Alex Ewerlöf]]
## [2026-04-24] ingest | 全网最全Nano Banana 2 使用指南2025年12月更新
- Source file: AI/全网最全Nano Banana 2 使用指南2025年12月更新 1.md
- Status: ✅ 成功摄入
- Summary: 介绍 Google Nano Banana 2Gemini 3 Pro Image推理型图像生成模型的国内使用方法通过 DeepSider 浏览器插件实现无 VPN 直连访问,同时支持数十款 AI 大模型
- Concepts created: 无(本次概念不足以独立建页)
- Entities created: [[DeepSider]], [[Nano Banana 2]]
- Entities updated: [[Google]](新增 Nano Banana 2 产品信息)
- Source page: wiki/sources/全网最全-nano-banana-2-使用指南-2025年12月更新-1.md
- Notes:
- Nano Banana 2 与 [[Nano Banana Pro]] 为不同版本Nano Banana 2 为更新版2025年12月发布
- [[Nano Banana Pro]] 已在 [[Google.md]] entity 中提及,本次新增 [[Nano Banana 2.md]] entity 独立页面
## [2026-04-24] ingest | 2025 年 11 个神级 AI 开源平替GitHub 杀疯了
- Source file: AI/2025 年 11 个神级 AI 开源平替GitHub 杀疯了。.md
- Status: ✅ 成功摄入
- Summary: 按 8 大领域LLM/AI生图/生视频/AI智能体/AI编码/工作流/AI搜索/AI知识库系统盘点 GitHub 上各领域最火的开源平替项目,核心洞察:国产开源模型在多领域达到或超越国际闭源竞品水平
- Concepts created: [[AI开源平替]]
- Entities created: [[Flux]], [[HunyuanVideo]], [[Manus]], [[OpenManus]], [[Cline]], [[Perplexica]], [[Dify]], [[Stable Diffusion]]
- Entities updated: [[DeepSeek]], [[Qwen]], [[n8n]]
- Source page: wiki/sources/2025-年-11-个神级-ai-开源平替-github-杀疯了.md
- Notes:
- DeepSeek、Qwen、n8n 已在 Wiki 中存在,本次仅追加新版本信息
- Flux≥2次、HunyuanVideo≥2次、Manus≥2次、OpenManus≥2次、Cline≥2次、Perplexica≥2次、Dify≥2次、Stable Diffusion≥2次均出现 ≥2 次,符合创建条件
- OpenAI、MiniMax、Kimi K2、智谱 GLM 仅出现 1 次,未达到创建阈值
- Perplexity 作为对比对象出现,但非本文主角,不创建独立页面
- 冲突检测:内容与现有 Wiki 中 DeepSeek、n8n 等实体描述一致,无冲突
- Meta 收购 Manus 是 2025 年重大事件,已体现在 [[Manus]] 实体页
## [2026-04-23] ingest | AI 解决方案专家培训课程
- Source file: AI/AI 解决方案专家培训课程.md
- Status: ✅ 成功摄入
- Summary: Coze 平台多行业 AI Agent 培训课程涵盖国内版coze.cn和海外版coze.com提供覆盖金融、医疗、教育、电商、人力资源、泛娱乐、在线客服等 7 大行业共 50+ 可体验 Agent Demo核心技术栈为 Prompt 工程、RAG、Function Call 和 Workflow 编排。
- Concepts created: [[Coze-Workflow]]
- Entities created: [[Coze]], [[SONY]], [[滴滴]]
- Source page: wiki/sources/ai-解决方案专家培训课程.md
- Notes:
- Coze、SONY、滴滴三个实体在源文件中均出现 ≥2 次,符合创建条件
- FaceFusion、F5-TTS、World Labs、抖音仅出现 1 次未达到创建阈值≥2次
- Prompt Engineering、Function Call、Workflow Engineering 等核心概念已存在于 Wiki本次作为 Key Concepts 引用
- 冲突检测Coze 平台与其他 AI 工具Claude Code、Ollama 本地部署)属互补关系,无内容冲突
- Source file: AI/RAG从入门到精通系列1基础RAG.md
- Status: ✅ 成功摄入
- Summary: RAG 基础原理与实战Indexing文档加载→切分→向量化入库→ Retrieval向量相似度 Top-k 检索)→ Generation问题+上下文→LLM 生成答案Qwen+BAAI+LangChain+Qdrant 实战工具链。
- Concepts created: [[Indexing]], [[Retrieval]], [[Generation]], [[Split]], [[Context-Window]]
- Entities created: [[LangChain]], [[Qwen]], [[Qdrant]]
- Source page: wiki/sources/rag从入门到精通系列1-基础rag.md
- Notes:
- RAG 概念页面 [[RAG]] 已存在于 wiki/concepts/RAG.md已在 Source Page 中正确引用
- 冲突检测:基础 RAGNaive RAG与 Advanced RAG / RAG Fusion 存在优化方向差异,待后续进阶内容补充后更新 Contradictions
- [[PyTorch研习社]] 为文章来源方raw 文档中有注明Source Page Key Entities 已记录
- BAAIEmbedding Model和 LlamaIndex 在 Source Page 中作为 Key Entities 记录,暂未创建独立 Entity 页面
## [2026-04-23] ingest | 固定镜头短视频制作的AI全流程解析
- Source file: AI/固定镜头短视频制作的AI全流程解析.md
- Status: ✅ 成功摄入
- Summary: 利用 AI 技术快速制作高播放量固定机位家装类短视频的全流程方法论涵盖分镜拆解Google AI Studio、九宫格图像生成Midjourney/Nano Banana、首尾针动画海螺AI/KAI、快节奏剪辑剪映、声音设计五大步骤10 分钟内完成成片。
- Concepts created: [[固定机位]], [[首尾针动画]], [[九宫格法]]
- Entities created: [[Midjourney]], [[KAI]], [[剪映]]
- Source page: wiki/sources/固定镜头短视频制作的ai全流程解析.md
- Notes:
- 冲突检测:与传统视频制作理念(复杂镜头语言+丰富转场)存在冲突,已记录至 Source Page Contradictions 部分
- Google/Nano Banana 实体已存在于 wiki/entities/Google.md已在 Source Page Key Entities 中正确引用
- 海螺AI 仅为提及(非关键工具),未创建独立 Entity 页面
- 快节奏剪辑、卡点、内容连续变化、时间压缩等为描述性术语,不满足"可抽象可复用"原则,未创建独立 Concept
## [2026-04-25] ingest | 大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏
- Source file: AI/大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md
- Status: ✅ 成功摄入
- Summary: 大模型生态核心术语入门速查手册,涵盖 LLM、Prompt、MCP、Agent、RAG、Embedding、LangChain、vLLM、Token、数据蒸馏等概念用通俗语言和可视化类比解释大模型领域关键术语
- Concepts created: [[Model Context Protocol]], [[vLLM]], [[LangChain]]
- Concepts updated: [[Large Language Model]](添加来源引用), [[AI Agent]](添加 Model Context Protocol 关联 + 来源引用), [[RAG]](已包含来源)
- Entities identified: 无shenwei 仅在本文出现 1 次,不满足 ≥2 次条件OpenAI/vLLM 社区仅为引用来源,不满足关键影响条件)
- Source page: wiki/sources/大模型相关术语和框架总结llm-mcp-prompt-rag-vllm-token-数据蒸馏.md
- Notes:
- 冲突检测:与 [[llms-rag-ai-agent-三个到底什么区别]] 属互补关系(术语科普 vs 三层架构梳理),已记录至 Source Page Contradictions 部分
- 无需创建 shenwei Entity仅出现 1 次,不满足 ≥2 次条件)
- vLLM.md 中 KV Cache/PagedAttention/Continuous Batching 等子概念不单独创建页面,因其属于 vLLM 框架的内部技术细节,不满足"可抽象、可复用"原则
- Embedding 已存在 [[Vector-Embedding]] ConceptLangChain 为框架类概念(已有充分讨论)
## [2026-04-25] ingest | Nano Banana Pro 提示词指南与策略(上篇)
- Source file: AI/Nano-Banana Pro Prompting Guide & Strategies 1.md
- Status: ✅ 成功摄入
- Summary: Google Nano Banana Pro 官方提示词指南上篇,涵盖 10 条黄金法则(编辑而非重生成、使用自然语言、提供上下文等)和前 9 个能力域(文本渲染/信息图、角色一致性/身份锁定、Google Search 信息锚定、高级编辑/修复/着色、2D/3D 维度转换、高分辨率/纹理、思考推理模式、故事板/概念艺术、结构控制/布局引导),附大量可直接复制的实战提示词模板。
- Concepts identified: 无Nano Banana Pro 特有概念均为具体应用技术,不满足可复用抽象原则)
- Entities identified: [[Google]](已存在于 wiki/entities/Google.md已更新 Key Products 添加 Google AI Studio / Nano Banana Pro / Google Colab
- Source page: wiki/sources/nano-banana-pro-prompting-guide-strategies-1.md
- Notes:
- index.md 已修复旧条目(移除 expected/missing 标注,替换为完整标题和摘要)
- overview.md 已更新「Nano Banana Pro 提示词指南」段落,明确标注本文为上篇及涵盖的 9 个能力域
- 冲突检测:与 [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]] 存在范围重叠,已记录至 Source Page Contradictions 部分,结论为互补而非冲突
- 无需新建 Entity 页面shenwei 作者仅在本文出现 1 次,不满足 ≥2 次条件)
- 无需新建 Concept 页面(身份锁定/对话式编辑等为 Nano Banana Pro 特有应用技术,不满足可复用抽象条件)
- Source file: AI/我的工具集.md
- Status: ✅ 成功摄入
- Summary: 个人 AI 工具推荐清单按类型分类Text-to-Speech / Image-Editor / Image-to-Video / Web-Scraper / AI-Summary覆盖 Google AI StudioWavespeed 图生视频、Vidu、海螺 AI、Brightdata网页爬取、DecopyAI 摘要)等服务。与 AI图生视频工具盘点属互补关系——本文为工具索引后者为免费工具详细评测。

View File

@@ -29,7 +29,9 @@ The wiki covers two major multi-agent frameworks: **The Agency** (agency-agents)
**Recursive Self-Optimizing Generative Systems**[[a-formalization-of-recursive-self-optimizing-generative-systems]]):递归自我优化生成系统的形式化理论模型——将 [[养虾日记2]] 中 Self-Improving 的实践经验抽象为严格数学框架:系统目标不是直接产出最优输出,而是通过迭代自我修改构建稳定的生成能力 $G^*$。定义生成器空间 $\mathcal{G}$ → 优化算子 $O$ → 元生成算子 $M$ → 自映射 $\Phi$ → 稳定不动点 $G^*$,最终用 λ-calculus Y 组合子表达自引用结构 $G^* \equiv Y\;\text{STEP}$。核心发现:**递归自我优化自然涌现不动点结构**——当 $\Phi$ 满足收缩性条件时,$G^* = \lim_{n \to \infty} \Phi^n(G_0)$。该框架为 [[Self-Improving-Skill]] 和所有自我改进 AI 架构提供了原则性理论基础。
Key concepts: [[Recursive Self-Optimization]], [[Generator Space]], [[Self-Referential Computation]], [[Fixed-Point Semantics]], [[Y-Combinator]], [[Self-Improving AI]], [[Automated Prompt Engineering]], [[Email Triage]], [[Newsletter Digest]], [[Preference Learning]], [[Cron Job]], [[Multi-Agent Coordination]], [[Multi-Tool Integration]], [[MCP Tool Interface Design]], [[Workflow Architecture]], [[Shared Memory Architecture]], [[Private Context]], [[Single Control Plane]], [[Scheduled Task Flywheel]], [[Parallel Agent Execution]], [[Topic-Based Routing]], [[Voice Interface]], [[Telephony Integration]], [[Voice Notification Channel]], [[Two-Way Voice Conversation]], [[Call-Worthy Threshold]], [[PSTN Calling]], [[PM Delegation Pattern]], [[CEO Pattern]], [[Shared State Coordination]], [[Git-as-Audit-Log]], [[Dynamic-Dashboard]], [[Alerting]], [[Zero-Friction Capture]], [[Cumulative Memory]], [[Conversational Interface]], [[Text-and-Search]], [[Unified-Inbox]], [[Intent-Classification]], [[Human-Handoff]], [[Test-Mode]], [[Business-Knowledge-Base]], [[Language-Detection]], [[AI-Auto-Response]], [[Heartbeat-Monitoring]], [[Self-Improving-Skill]], [[双层记忆架构]], [[每日复盘机制]], [[Pattern-Key]], [[Recurrence-Count]], [[Self-Improvement-Log]], [[AI-Agent思维方式]], [[批次任务拆分]], [[精确去重]], [[小文件清理]], [[安全删除策略]], [[Telegram通知]], [[Context-Window]], [[Model-Fallback]], [[Compaction]], [[Agent-Routing-Rules]], [[Error-Surface-vs-Root-Cause]], [[Layered-Configuration]], [[Log-Driven-Debugging]], [[Hidden-Failure-Paths]], [[Large Language Model]], [[RAG]], [[AI Agent]], [[ReAct Pattern]]
**[[multi-agent-system-reliability]]**Alex Ewerlöf多智能体系统可靠性的架构模式理论——反对拟人化LLM主张将LLM视为分布式系统中不可靠的组件。核心4模式[[Hierarchy-Agent-Pattern]](主管→工作→验证链)、[[Consensus-Voting-Pattern]]N个LLM多数票消除幻觉、[[Adversarial-Debate-Pattern]]Generator→Critic→Judge对抗辩论、[[Knock-out-Pattern]](适者生存淘汰制)。核心洞察:不应要求模型"小心",而应**强制**其正确——通过架构约束而非提示词约束。与 [[Designing for Agentic AI]] 互补(架构 vs 用户体验),与 [[Recursive Self-Optimization]] 共享自引用结构思想。与 [[Genetic-Algorithm]]遗传算法有关联——Knock-out/Tree of Thoughts 是 GA 的精简实现。
Key concepts: [[Recursive Self-Optimization]], [[Generator Space]], [[Self-Referential Computation]], [[Fixed-Point Semantics]], [[Y-Combinator]], [[Self-Improving AI]], [[Automated Prompt Engineering]], [[Email Triage]], [[Newsletter Digest]], [[Preference Learning]], [[Cron Job]], [[Multi-Agent Coordination]], [[Multi-Tool Integration]], [[MCP Tool Interface Design]], [[Workflow Architecture]], [[Shared Memory Architecture]], [[Private Context]], [[Single Control Plane]], [[Scheduled Task Flywheel]], [[Parallel Agent Execution]], [[Topic-Based Routing]], [[Voice Interface]], [[Telephony Integration]], [[Voice Notification Channel]], [[Two-Way Voice Conversation]], [[Call-Worthy Threshold]], [[PSTN Calling]], [[PM Delegation Pattern]], [[CEO Pattern]], [[Shared State Coordination]], [[Git-as-Audit-Log]], [[Dynamic-Dashboard]], [[Alerting]], [[Zero-Friction Capture]], [[Cumulative Memory]], [[Conversational Interface]], [[Text-and-Search]], [[Unified-Inbox]], [[Intent-Classification]], [[Human-Handoff]], [[Test-Mode]], [[Business-Knowledge-Base]], [[Language-Detection]], [[AI-Auto-Response]], [[Heartbeat-Monitoring]], [[Self-Improving-Skill]], [[双层记忆架构]], [[每日复盘机制]], [[Pattern-Key]], [[Recurrence-Count]], [[Self-Improvement-Log]], [[AI-Agent思维方式]], [[批次任务拆分]], [[精确去重]], [[小文件清理]], [[安全删除策略]], [[Telegram通知]], [[Context-Window]], [[Model-Fallback]], [[Compaction]], [[Agent-Routing-Rules]], [[Error-Surface-vs-Root-Cause]], [[Layered-Configuration]], [[Log-Driven-Debugging]], [[Hidden-Failure-Paths]], [[Large Language Model]], [[RAG]], [[AI Agent]], [[ReAct Pattern]], [[Hierarchy-Agent-Pattern]], [[Consensus-Voting-Pattern]], [[Adversarial-Debate-Pattern]], [[Knock-out-Pattern]], [[Tree-of-Thoughts]], [[Genetic-Algorithm]], [[Reliability-Engineering]]
### Multi-Agent Monitoring & Automation
**Dynamic Dashboard**:基于 [[OpenClaw]] 的多数据源实时监控仪表盘——通过子代理并行抓取 GitHub/Twitter/Polymarket/系统健康等多数据源,定时聚合结果推送 Discord支持告警阈值和历史趋势存储。用对话式指令替代数周前端开发立即获得实时洞察。[[polymarket-autopilot]] 是 Polymarket 市场监控的具体实现——AI Agent 24/7 自动监控预测市场、分析概率变化、自动执行交易策略。与 [[self-healing-home-server]] 的系统监控场景关联,[[earnings-tracker]] 的市场数据监控场景扩展,[[content-factory]] 共享子代理并行执行模式。
@@ -98,7 +100,9 @@ Covers Claude Code, Claude Code Templates (npx 一键安装 Skills/Agents/MCP vi
**Claude Skills 范式**[[3-2-万人收藏的-claude-skills-才是-ai-这条路上最值得研究的一套范式-1]]Anthropic 官方 Skills 仓库github.com/anthropics/skills3.2 万收藏)将 Claude.ai 网页版的生产级能力原封不动拆解展示包含办公自动化Word/PDF/PPT/Excel、开发者工具箱MCP Server/自动化测试/Artifacts 构建)和创意类 Skill。核心洞察**Skills = 说明书 + SOP**,将反复执行的有固定流程的任务拆解为 AI 能理解、能复用、能自动执行的一套流程。Claude Skills 的爆发标志着从「提示词工程」向「流程工程」的范式转变——最有价值的不是 Prompt 写得最花,而是能把业务流程沉淀成 SOP 并交给 AI 稳定执行。Vibe Coding 的尽头也是 Skills。三大 Skill 聚合站skillsmp.com、aitmpl.com/skills、claudemarketplaces.com可"拿来主义"直接使用3 款高产开源 Awesome-Claude-Skills 仓库ComposioHQ/VoltAgent/BehiSecc提供系统性灵感。
**Vibe Coding 中文指南**[[github-上-5000-人收藏的-vibe-coding-神级指南]]):介绍 vibe-coding-cn 开源项目github.com/tukuaiai/vibe-coding-cn为中文开发者汇集全球顶尖 AI 编程资源。核心公式:**Vibe Coding = 规划驱动 + 上下文固定 + AI 结对执行**让「从想法到可维护代码」变成可审计的流水线而非一团无法迭代的巨石文件。工具推荐Cursor + Claude Opus高 context window 保证上下文一致性)。包含方法论、提示词优化技巧(需求澄清/系统架构设计/分步执行/自测全链路脚本)和完整开发流程教程。核心理念:**规划就是一切**——让 AI 写代码前必须先完成技术选型、实施规划和模块化设计,防止 AI 因理解偏差导致项目逻辑混乱。[[系统提示词构建原则]] 提供了该框架的详细行为准则——从身份定义遵守项目约定、优先技术准确性到具体执行规范TODO 规划、Search/Replace 编辑、精确搜索策略),构成 Vibe Coding 的操作层指南。
**Vibe Coding 中文指南**[[github-上-5000-人收藏的-vibe-coding-神级指南]]):介绍 vibe-coding-cn 开源项目github.com/tukuai/vibe-coding-cn为中文开发者汇集全球顶尖 AI 编程资源。核心公式:**Vibe Coding = 规划驱动 + 上下文固定 + AI 结对执行**让「从想法到可维护代码」变成可审计的流水线而非一团无法迭代的巨石文件。工具推荐Cursor + Claude Opus高 context window 保证上下文一致性)。包含方法论、提示词优化技巧(需求澄清/系统架构设计/分步执行/自测全链路脚本)和完整开发流程教程。核心理念:**规划就是一切**——让 AI 写代码前必须先完成技术选型、实施规划和模块化设计,防止 AI 因理解偏差导致项目逻辑混乱。[[系统提示词构建原则]] 提供了该框架的详细行为准则——从身份定义遵守项目约定、优先技术准确性到具体执行规范TODO 规划、Search/Replace 编辑、精确搜索策略),构成 Vibe Coding 的操作层指南。
**Gemini 3 十应用实战**[[我用-gemini-3-一口气做了-10-个应用-附教程]]):使用 Google [[Gemini-3]] 模型通过对话式提示词构建 10 个实用可视化应用(冷知识卡片/配色卡片/电影海报/绘画思维导图等)。核心方法论:①限定垂直场景(诗词/小说/电影)→ ②用提示词约束结构化输出JSON/SVG→ ③用前端 SVG/HTML 作为输出容器。三步核心机制:**AI 生成 SVG 代码 → 前端渲染为精美卡片/海报/导图**。该方法论与 [[Vibe-Coding]] 的"对话驱动 + AI 结对"理念高度契合——通过限制输入场景降低 AI 理解成本,通过提示词约束结构化输出,通过前端代码作为最终容器,是 Vibe Coding 在 AI 可视化产品方向的具体实践。
**Claude Prompt Library**[[useful-prompt-lib]]Anthropic 官方提示词库,收录 64+ 款专业化提示词覆盖开发工具Python Bug Buster、Code Consultant、Git Gud、效率工具Data Organizer、Review Classifier、CSV Converter、创意工具Storytelling Sidekick、Culinary Creator、营销工具Babel's Broadcasts 多语言推文、Polyglot Superpowers 互译、教育工具Meeting Scribe、Lesson Planner、Socratic Sage等 10+ 领域。TikTok 跨境电商推荐三剑客Babel's Broadcasts10 种语言产品发布、Review Classifier评论自动化分类、Data Organizer非结构化文本→JSON对接 n8n 工作流)。
@@ -107,16 +111,24 @@ Covers Claude Code, Claude Code Templates (npx 一键安装 Skills/Agents/MCP vi
- **[[RAG]]**:认知层(记忆系统),将 LLM 链接外部知识库,消除幻觉、提供可追溯来源
- **[[AI Agent]]**:执行层(行动系统),感知→规划→执行→反思的循环控制,实现真正自主性
核心洞察:未来不在于选择其一,而在于将三者结合架构设计。[[designing-for-agentic-ai]] 阐述的 TCPCA 五原则(透明度/控制感/个性化/对话式交互/主动预判)正是 Agent 系统设计的核心框架
**[[RAG从入门到精通系列1-基础rag]]**RAG 系列教程第一篇,系统讲解基础 RAG 的 Indexing文档加载→切分→向量化入库→ Retrieval向量相似度检索 Top-k 文档块)→ Generation问题+上下文→LLM 生成带事实依据的答案三阶段流程。实战工具链QwenLLM+ BAAIBGE Embedding+ LangChain应用编排+ Qdrant向量数据库。配套 Jupyter Notebook 演示完整 PipelineLangSmith 可视化调试。是 [[rag从入门到精通系列1-基础rag]] 系列的基础入门篇
入门术语参考:[[大模型相关术语和框架总结]] 提供 LLM、Prompt、MCP、Agent、RAG、Embedding、vLLM、Token、数据蒸馏等核心概念的通俗解释可作为三层架构体系的术语速查手册。与 [[llms-rag-ai-agent-三个到底什么区别]](系统梳理)属互补关系——前者入门科普,后者架构深化。
核心洞察:未来不在于选择其一,而在于将三者结合架构设计。
**ChatGPT 个性化配置**:基于 [[openai-chatgpt-个性化定义]] 的用户完整配置案例,展示如何通过 ChatGPT 自定义指令将通用 AI 塑造成专属协作者。核心配置原则包括:[[Expert User Assumption]](将用户视为所有领域专家,无需简化技术细节)、[[Proactive AI]](主动预判需求而非被动等待)、[[Error Accountability]](错误零容忍且主动反馈配置导致的回复质量下降)。[[Custom Instructions]] 通过两条配置(自定义指令 + 用户详情)永久定义 AI 行为,无需每次对话重复说明。[[Personalization]] 的关键是系统性配置——错误政策、引用格式、推测告知、内容政策冲突处理——而非零散提示词。
**[[AI图生视频工具盘点]]**:基于 [[14个免费的AI图生视频工具-用ai让图片动起来]] 的综合分析介绍了14个免费AI图生视频工具覆盖阿里巴巴绘蛙、通义万相、万相营造、字节跳动即梦AI、快手可灵AI、智谱AI智谱清影、MiniMax海螺AI、生数科技Vidu、爱诗科技PixVerse、潞晨科技Video Ocean、智象未来Viva、MewXAI艺映AI、Stability AIStable Video等厂商。核心能力包括文本提示词控制运动、动作模板选择、运镜参数调节、首尾帧精准控制、主体一致性保持、音效自动生成等。电商场景模特图动态化、商品展示、视频创作创意短片、广告制作是三大主要应用方向。与 [[文字生成视频网站推荐]] 属同类AI视频生成工具的不同角度——前者侧重点图生视频后者侧重文生视频。
**[[固定镜头短视频制作的AI全流程解析]]**:基于固定机位 + 内容连续变化 + 时间压缩三大原理的家装短视频 AI 制作方法论——分镜拆解Google AI Studio→ 九宫格图像生成Midjourney/Nano Banana→ 首尾针动画海螺AI/KAI→ 快节奏剪辑(剪映)→ 声音设计10 分钟内完成成片。核心突破:九宫格一次性生成保证画面一致性,首尾针动画替代复杂转场,硬切反而更干净。适用于所有固定机位且状态变化明显的短视频类型。与 [[AI图生视频工具盘点]] 同属 AI 视频创作工具应用,后者侧重工具评测,前者侧重完整工作流程。
**NotebookLM 开源平替生态**:基于 [[google-神级生产力工具-所有-github-开源平替都找到了]] 的系统梳理Google [[NotebookLM]] 作为 AI 笔记助手标杆支持文档问答和播客生成两大核心能力GitHub 上已形成完整的开源替代生态:[[OpenNotebook]]14.6k Stars全功能本地化支持 16+ AI 提供商和本地模型)是 Star 最高的平替;[[SurfSense]]11.4k Stars定位为 NotebookLM + Perplexity + Glean 的综合替代,支持语义+全文混合搜索和团队 RBAC[[Podcastfy]] 专注播客生成,整合 100+ LLM 和多种 TTS 引擎;[[NotebookLlama]]LlamaIndex 官方项目)展示文档转播客的完整技术链条;[[PageLM]] 聚焦教育场景,提供康奈尔笔记和间隔重复闪卡;[[InsightsLM]] 采用 Supabase + N8N 低代码架构,支持完全离线部署。该生态覆盖从"全功能替代"到"垂直聚焦"的不同需求层次。与 [[Personal Knowledge Base (RAG)]](文档检索知识库)同属 AI 驱动的知识管理工具,但 NotebookLM 生态侧重"文档→对话/音频"的交互形态。
**[[7-ways-i-use-notebooklm-to-make-my-life-easier]]**NotebookLM 7种日常生活场景实测——①处理信息积压将未读 PDF/文章/视频上传AI 自动消化用户通过问答提取要点②播客笔记Audio Overviews 将文档转为双 AI 主持的对话播客,适合驾驶/健身等被动学习场景);③快速成为多主题专家(将 Batman/Star Wars 宇宙资料或 Jupiter/Marine Corps 等专业领域文档上传,通过播客辩论式学习);④编程辅助(上传官方文档,上下文学习,提供引用回溯);⑤项目管理中枢(将零散研究、想法、会议记录整合为结构化路线图,作者用此法一年做出 6 个 App⑥版本对比对比 App 更新、新闻稿、长文档差异,列出具体变化并附带引用);⑦法律文档审核(租约/合同分析,每个答案附引用,可一键回溯原文核实)。核心机制:[[Source-Grounding]]——知识库严格限定于可信文档确保答案有据可查。Premium 版提供更完整的功能。与 [[Second Brain]]对话记忆捕获同属个人知识管理NotebookLM 侧重文档驱动的问答与音频交互。
**AI 开源平替生态**:基于 [[2025-年-11-个神级-ai-开源平替-github-杀疯了]] 的系统盘点GitHub 上各 AI 领域已形成完整的开源平替生态——大语言模型([[DeepSeek]] R1/V3、Qwen 3、AI 生图([[Flux]]、Stable Diffusion、AI 生视频([[HunyuanVideo]] 混元视频、AI 智能体([[OpenManus]] 对标 [[Manus]]、AI 编码([[Cline]] 对标 [[Cursor]])、工作流自动化([[n8n]] 16万 Star、[[Dify]]、AI 搜索([[Perplexica]] 对标 Perplexity。核心洞察国产开源模型在多个领域已达到或超越国际闭源竞品水平[[DeepSeek]] R1 是开源界首个将 o1 级深度推理拉下神坛的破壁者,[[Manus]] 则定义了 AI Agent 元年并被 Meta 收购。
**[[custom-morning-brief]]**:基于 [[OpenClaw]] 的晨间简报自动化——每天定时(例 8AM通过 Telegram/Discord/iMessage 推送结构化报告内容涵盖新闻研究AI/创业/科技方向)、当日待办事项(集成 Todoist/Apple Reminders/Asana、主动任务推荐AI 自主思考可帮助完成的事项)、睡前完成的完整草稿(脚本/邮件/商业方案,而非仅标题)。核心洞察:**主动任务推荐**是整个系统最有价值的部分——AI 主动思考如何帮助用户而非被动等待指令完整草稿full draft比标题建议节省大量时间用户只需发消息即可调整简报内容无门槛个性化。与 [[self-healing-home-server]] 的 Morning Briefing 属同一模式的不同垂直场景。
**[[family-calendar-household-assistant]]**:基于 [[OpenClaw]] 的家庭日程协调与物资管理方案——聚合 5+ 个分散日历(工作/个人/家庭/学校/课外生成每日晨间简报通过环境消息监控Ambient Message Monitoring自动从 iMessage 中识别预约并创建日历事件(含行车时间缓冲);维护家庭库存 JSON冰箱/储藏室),支持照片 OCR 和小票识别更新;生成购物清单。核心洞察:**Ambient > Active**——Agent 在不被要求时主动行动才是最大突破Mac Mini 是该场景的最优硬件iMessage 集成 + 始终在线)。与 [[Custom Morning Brief]] 属同一晨间简报模式的不同场景(个人 vs 家庭)。
@@ -147,12 +159,16 @@ Covers Claude Code, Claude Code Templates (npx 一键安装 Skills/Agents/MCP vi
**[[Nano Banana 提示词框架]]**Nano Banana 基础框架文档,提供两套结构化 JSON Schema 模板——物件描述框架item / materials / details / condition和人物描述框架age / appearance / pose——共用法学 shot / environment / lighting / camera / color_grade / style / quality / negatives 参数字段。将艺术总监级别的专业摄影描述语言转化为可结构化填写的模板,降低 AI 图像生成的专业门槛。与 [[Nano Banana Pro 提示词指南]](进阶版)和 [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]](综合版)同属 Nano Banana 提示词体系。
**[[Nano Banana Pro 提示词指南]]**:谷歌发布的 Nano Banana Pro 官方提示词指南《The Complete Guide to Nano Banana Pro: 10 Tips for Professional Asset Production》凌晨无预警发布核心主题是"将 AI 从趣味性图像生成升级为功能性专业资产生产"。核心理念:**停止标签堆砌,像创意总监一样思考**。核心突破:意图理解引擎实现物理规则推演、构图美学理解和语义上下文推理(而非传统关键词匹配)。关键能力:支持 14 张参考图像6 张高保真)实现"身份锁定";默认生成思考图像(不收费)后再输出最终结果;支持 1K-4K 原生高分辨率。10 大黄金法则包括:编辑而非重新生成、使用自然语言完整句子、具体且具描述性、提供上下文("为什么"或"为谁"。9 个实战章节覆盖:文本渲染/信息图、角色一致性/病毒缩略图、Google 搜索信息锚定、高级编辑/修复/着色、2D/3D 维度转换、高分辨率/纹理、思考推理模式、故事板/概念艺术、结构控制/布局引导。与 [[清华出的DeepSeek使用手册]] 同属 AI 工具方法论指南——前者聚焦 DeepSeek 文本推理,后者聚焦 Nano Banana Pro 图像生成;与 [[nano-banana-提示词框架]]Nano Banana 基础框架)和 [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]]Nano Banana 2 综合指南)同属 Nano Banana 提示词体系的不同层次
**[[Nano Banana 2 国内使用指南]]**:基于 [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]]Nano Banana 2Gemini 3 Pro Image是 Google 发布的推理型图像生成模型——在生成图像前会进行内部推理,自动补完提示词的深层次需求,支持 1K/2K/4K 分辨率输出,最多可将 14 张输入图像组合为 1 张输出,擅长中文界面渲染、科研配图、技术路线图、教学插画等高准确性要求的图像创作。国内用户可通过 [[DeepSider]] 浏览器插件deepsider.aiEdge 扩展)直接访问,无需特殊网络和海外账户,插件同时支持 GPT5/GPT4.1/Claude/Gemini 2.5 Pro/Grok/Sora 2 等数十款 AI 模型。与 [[Nano Banana Pro 提示词指南]]进阶专业提示)和 [[Nano Banana 提示词框架]](结构化模板)同属 Nano Banana 提示词体系。
**[[Nano Banana Pro 提示词指南]]**:谷歌发布的 Nano Banana Pro 官方提示词指南《The Complete Guide to Nano Banana Pro: 10 Tips for Professional Asset Production》含上下两篇凌晨无预警发布核心主题是"将 AI 从趣味性图像生成升级为功能性专业资产生产"。核心理念:**停止标签堆砌,像创意总监一样思考**。核心突破:意图理解引擎实现物理规则推演、构图美学理解和语义上下文推理(而非传统关键词匹配)。关键能力:支持 14 张参考图像6 张高保真)实现"身份锁定";默认生成思考图像(不收费)后再输出最终结果;支持 1K-4K 原生高分辨率;[[Google Search]] 信息锚定减少实时内容幻觉。10 大黄金法则包括:编辑而非重新生成、使用自然语言完整句子、具体且具描述性、提供上下文("为什么"或"为谁")。上篇([[nano-banana-pro-prompting-guide-strategies-1]])覆盖前 9 个能力域(文本渲染/信息图、角色一致性/病毒缩略图、Google 搜索信息锚定、高级编辑/修复/着色、2D/3D 维度转换、高分辨率/纹理、思考推理、故事板/概念艺术、结构控制/布局引导),附大量可直接复制的实战提示词模板。与 [[清华出的DeepSeek使用手册]] 同属 AI 工具方法论指南——前者聚焦 DeepSeek 文本推理,后者聚焦 Nano Banana Pro 图像生成;与 [[nano-banana-提示词框架]]Nano Banana 基础框架)和 [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]]Nano Banana 2 综合指南)同属 Nano Banana 提示词体系的不同层次。
**[[Ollama 本地 LLM 部署]]**:基于 [[详细-离线部署大模型-ollama-deepseek-open-webui安装使用方法及常见问题解决-1]] 的完整实操指南,展示如何使用 Ollama + DeepSeek-R1 + Open WebUI 在本地离线部署大模型。核心价值:**免费、无需 API Key、数据完全私有**。Ollama 跨平台支持macOS/Windows/Linux/Docker通过 `ollama run deepseek-r1:8b` 一键运行国内网络环境下可通过魔塔社区modelscope.cn或 HuggingFace Mirrorhf-mirror.com加速下载云服务器部署必须通过 nginx + Bearer Token 保护 API 防止恶意调用Open WebUI 提供浏览器端 Web 界面,支持 RAG 本地知识库bge-m3 嵌入模型和联网搜索。硬件要求1.5B 模型需 4GB RAM7B 需 16GB RAM32B 需 64GB RAM+48GB 显存Apple M2 Max 可流畅运行 32b 及以下)。
**Claude Code 调用方法**[[claude-code调用方法总结]] 详细记录了 Hermes Agent 通过 `terminal` 工具调用 Claude Code 的两种模式——Print Mode`claude -p`,适合绝大多数任务)和 TMUX 交互模式(适合超长任务)。核心参数包括 `--permission-mode bypassPermissions`(跳过所有权限确认)和 `--add-dir`(加载 SKILL.md。关键结论当任务需要 Claude Code 的 Skill 时,应使用 `terminal` 调用 `claude -p` 而非 `delegate_task`
**Coze 平台多行业 AI Agent 培训**[[ai-解决方案专家培训课程]]Coze扣子平台的实战培训课程分国内版coze.cn和海外版coze.com提供覆盖金融客户分层营销、智能客服、医疗分诊助手、影像识别、教育知识库问答、拍照搜题、电商混剪助手、在线换衣、抖音直播回复、人力资源招聘打分、面试对练、AI 培训对练、泛娱乐AI 证件照、视频生成工作流、在线客服AI 助教、AI 销售)等 7 大行业共 50+ 可体验 Agent Demo是 AI 解决方案专家培训的实操案例库。与 [[Prompt Engineering]](提示词技能)、[[RAG检索增强生成]](知识库问答)、[[Function Call]](工具调用)三大基础能力配套,学员可通过邀请链接直接加入团队空间体验所有 Agent并可 Fork 改造。与 [[固定镜头短视频制作的AI全流程解析]] 的 AI 视频生成工作流相关联。
**AI辅助PRD生成**[[不会gemini的产品经理真的要淘汰]] 展示了大模型在产品经理工作流中的实战应用——通过 FeatureList 构思框架 → Mermaid 逻辑图辅助理解 → 分页面逐一描述生成 PRD+HTML 原型,可缩短文档工作时间 90% 以上。核心方法论:人负责"想"(创意决策),大模型负责"写"(格式补全)。
**[[autonomous-game-dev-pipeline]]**:基于 [[OpenClaw]] 的 AI Agent 全自动教育游戏开发流水线——每小时轮询队列产出 1 款儿童 HTML5 游戏,通过 "Bugs First" 优先策略(先修 bug 再做新功能、Round Robin 年龄组均衡分配、纯 HTML5/CSS3/JS 无框架技术栈,实现单人维护 41+ 款游戏。核心工程纪律:同步 master → feature branch → conventional commits → PR merge每次交付自动更新 CHANGELOG 和队列状态。核心价值:**每 7 分钟产出 1 款游戏或 1 个 bugfix**,单人可管理完整产品线。与 [[content-factory]] 同属 Agent 自动化内容生产,但前者侧重多 Agent 协作链,本方案侧重单人 Agent 的高纪律性流水线。
@@ -208,6 +224,7 @@ Key concepts: [[一人公司]], [[个人品牌]], [[Ikigai框架]], [[天才地
## Key Entities
- [[tukuai]] — 独立研究者,递归自我优化生成系统论文作者,为 [[Self-Improving-Skill]] 提供原则性理论框架
- [[Alex Ewerlöf]] — 资深Staff Engineer27年经验KTH系统工程硕士专注可靠性工程和弹性架构《Multi-Agent System Reliability》作者主张将LLM视为不可靠组件而非拟人化智能体
- [[The Agency]] — open-source AI agent collection (147 agents, 12 divisions)
- [[agency-agents]] — GitHub repository
- [[DracoVibeCoding]] — 公众号"Draco正在VibeCoding"作者,专注 Vibe Coding 与 AI Agent 实战分享

View File

@@ -0,0 +1,76 @@
---
title: "2025 年 11 个神级 AI 开源平替GitHub 杀疯了"
type: source
tags: [AI, 开源平替, LLM, AI生图, AI生视频, AI智能体, AI编码, AI搜索, 知识库]
date: 2026-01-01
---
## Source File
- [[AI/2025 年 11 个神级 AI 开源平替GitHub 杀疯了。]]
## Summary用中文描述
- 核心主题2025 年 GitHub 上各 AI 领域最火的开源平替项目盘点
- 问题域:闭源 AI 产品OpenAI/Gemini/Midjourney/Manus/Perplexity/NotebookLM价格高昂用户需要免费开源替代方案
- 方法/机制:按 8 大领域LLM、AI 生图、AI 生视频、AI 智能体、AI Coding、Agent 工作流、AI 搜索、AI 知识库)逐一介绍 GitHub 上 Star 最高、技术最强的开源项目
- 结论/价值国产开源模型DeepSeek、Qwen、HunyuanVideo在多个领域已达到或超越国际闭源竞品水平
## Key Claims用中文描述
- DeepSeek R1 是开源界首个将 o1 级深度推理拉下神坛的破壁者2025 年春节爆火拉开了中国通过开源策略与国外 AI 巨头差异化竞争的叙事
- 通义千问 Qwen 3 是最稳、最全、最能打的开源基座模型,流水的开源模型,铁打的通义千问
- Flux 是目前人体解剖学最正确的开源生图模型,出自前 SD 核心团队之手,手指头连指甲盖光泽都有
- Stable Diffusion 的 LoRA 和 ControlNet 生态依然最丰富SD3.5 优化版本更容易在中端显卡上运行
- 混元视频 HunyuanVideo 是开源界参数量最大的视频生成模型之一,对中文 Prompt 理解是天花板级别
- Manus 是 2025 年 AI Agent 领域的年度现象级产品,定义了 AI Agent 元年,被 Meta 以几十亿美金收购
- OpenManus 是 Manus 的开源平替核心逻辑是规划Planning→执行Execution→循环反馈拥有 5 万 Star
- Cline 是 Cursor 的最佳开源平替VS Code 生态中公认最强大的开源自主编程插件
- n8n 是功能更强、还能私有部署的开源版 Zapier拥有恐怖的 16 万 Star
- Perplexica 是 Perplexity 的完全开源免费替代,支持本地化 AI 搜索和 SearXNG 搜索源
- Claude Code 和 Codex 不是传统 AI 编程工具,而是基于终端的 AI Agent
## Key Quotes
> "2025 年,深度推理让 AI 学会了慢思考,开源内卷把价格打成了白菜,大模型也终于从会聊天的玩具,彻底进化成了能干活的队友。" — 核心主题总结
> "流水的开源模型,铁打的通义千问。" — Qwen 3 的稳定性评价
> "Manus 是 AI Agent 领域的年度现象级产品,甚至可以说是定义了 AI Agent 元年的里程碑式存在。" — Manus 行业地位
## Key Concepts
- [[AI开源平替]]:以开源项目替代闭源商业 AI 产品,降低使用成本
- [[深度推理]]DeepSeek R1 带来的 o1 级推理能力开源化
- [[AI生图]]Flux、Stable Diffusion 等开源图像生成模型
- [[AI生视频]]HunyuanVideo 等开源视频生成模型
- [[AI Agent]]通用智能体概念Manus 为领域元年代表
- [[AI Coding]]AI 辅助编程工具生态
- [[工作流自动化]]n8n、Dify 等可视化工作流编排平台
- [[AI搜索]]Perplexica 等开源 AI 搜索引擎
## Key Entities
- [[DeepSeek]]:国产 AI 公司DeepSeek R1/V3 开源地址维护者
- [[Qwen]](通义千问):阿里开源模型 Qwen 3六边形战士级基座模型
- [[Flux]]:前 SD 核心团队出品的开源生图模型
- [[Stable Diffusion]]老牌开源生图模型LoRA 和 ControlNet 生态最丰富
- [[HunyuanVideo]](混元视频):腾讯开源视频生成模型,参数量最大
- [[Manus]]AI Agent 领域现象级产品2025 年里程碑,被 Meta 收购
- [[OpenManus]]Manus 的开源平替,规划-执行-反馈核心逻辑
- [[Cline]]Cursor 的最佳开源平替VS Code 最强自主编程插件
- [[n8n]]:开源版 Zapier工作流自动化平台16 万 Star
- [[Dify]]LLM 应用开发平台,支持知识库和工作流可视化编排
- [[Perplexica]]Perplexity 的开源替代,本地化 AI 搜索引擎
- [[Perplexity]]AI 搜索产品标杆,对比对象
- [[Claude Code]]Anthropic 终端 AI Agent非传统编程工具
- [[Cursor]]AI 增强编辑器,重新定义代码编辑器
- [[OpenAI]]:国外 AI 巨头GPT 系列模型提供商
- [[Meta]]:收购 Manus 的科技巨头
## Connections
- [[DeepSeek]] ← extends ← [[OpenAI]]DeepSeek R1 对标 OpenAI o1 推理能力)
- [[Qwen]] ← extends ← [[OpenAI]](通义千问对标 GPT 系列)
- [[Flux]] ← derived_from ← [[Stable Diffusion]]Flux 团队来自 SD 核心团队)
- [[HunyuanVideo]] ← extends ← [[Stable Diffusion]](视频版扩散模型)
- [[OpenManus]] ← open_source_alternative ← [[Manus]]
- [[Cline]] ← open_source_alternative ← [[Cursor]]
- [[Perplexica]] ← open_source_alternative ← [[Perplexity]]
- [[Dify]] ← extends ← [[n8n]]两者同为工作流平台Dify 侧重 LLM 应用开发)
- [[Claude Code]] ← related_to ← [[AI Agent]]Claude Code 被定义为终端 AI Agent
- [[Manus]] ← triggered ← [[AI Agent 元年]]Manus 诞生定义了 2025 年为 AI Agent 元年)
## Contradictions
- 无明显内容冲突。该来源内容与 Wiki 中 [[DeepSeek]] 实体页描述一致,均强调 DeepSeek-R1 是开源推理模型破壁者。

View File

@@ -0,0 +1,50 @@
---
title: "AI 解决方案专家培训课程"
type: source
tags: [ai, coze]
date: 2026-04-23
---
## Source File
- [[AI/AI 解决方案专家培训课程.md]]
## Summary用中文描述
- 核心主题Coze扣子平台 AI Agent 开发实战培训课程涵盖国内版coze.cn和海外版coze.com的多行业 Agent 案例 Demo 合集
- 问题域:如何利用 Coze 平台快速构建覆盖金融、医疗、教育、电商、人力资源、泛娱乐、在线客服等多行业的 AI Agent 与 Workflow
- 方法/机制:通过分享大量可直接体验的 Coze Bot/Workflow 链接,配合飞书文档说明,让学员快速掌握 Prompt 工程、RAG、Function Call、工作流编排等核心技能
- 结论/价值:提供 50+ 可运行的 Agent Demo是 AI 解决方案专家培训的实操案例库,覆盖从基础能力验证到行业垂直应用的全场景
## Key Claims用中文描述
- Coze 平台支持国内版coze.cn和海外版coze.com可满足不同地域用户的 Agent 部署需求
- Coze Workflow 功能可将多个 Bot/工具串联,实现复杂业务流程的自动化编排
- Coze 平台已积累覆盖 7 大行业(金融、医疗、教育、电商、人力资源、泛娱乐、客服)的 50+ Agent Demo
- AI Agent 的 Function Call 能力可调用外部 API天气、地图、数据库等实现真实业务场景的自动化
## Key Quotes
> "邀请你加入我的扣子空间 'Prompt & RAG & Function Call'" — Coze 平台培训课程邀请语,说明培训以 Prompt 工程、RAG 和 Function Call 为核心技能
## Key Concepts
- [[Prompt Engineering]]Coze Bot 的核心技能,通过优化提示词让 AI 理解任务目标并稳定输出,是本课程的基础能力
- [[RAG检索增强生成]]Coze 知识库问答的核心技术,将私有文档向量化后供 Agent 检索调用,案例包括知乎财报解读、表格知识库等
- [[Function Call]]Coze Bot 调用外部工具的能力,支持天气查询、故事合成、企业办事等多种真实业务场景
- [[Coze Workflow]]:多个 Bot 和插件串联的工作流编排可实现复杂业务自动化如滴滴计费规则解答_WorkFlow、骑手招聘助手_WorkFlow
- [[AI Agent]]:具备感知→规划→执行→反思能力的 AI 系统Coze 平台是其快速构建工具
## Key Entities
- [[Coze]]:字节跳动旗下的 AI Agent 开发平台(国内版 coze.cn / 海外版 coze.com提供 Bot 创建、Workflow 编排、知识库管理、插件系统等完整能力
- [[抖音]]Coze 平台所在字节跳动生态的核心产品Coze 直播间自动回复助手等服务抖音电商场景
- [[SONY]]零售场景案例合作方SONY门店店员_Chao 等 Agent 覆盖零售场景的 AI 客服需求
- [[滴滴]]:出行场景案例,滴滴计费规则解答等 Agent 覆盖出行行业的 AI 客服需求
- [[FaceFusion]]:泛娱乐场景使用的人脸融合 AI 模型,用于霸道总裁等泛娱乐 Agent 的底层技术
- [[F5-TTS]]:泛娱乐场景使用的语音合成开源模型,为 AI 生成视频提供配音能力
- [[Google Genie 2]]:世界模型,用于泛娱乐场景的 AI 视频生成研究
- [[World Labs]]AI 世界生成平台Coze 泛娱乐课程中涉及的 AI 视频技术方向
## Connections
- [[Coze]] ← platform ← AI 解决方案专家培训课程(本课程以 Coze 为核心工具)
- [[Prompt Engineering]] ← core_skill ← [[RAG检索增强生成]] ← combo ← [[Function Call]] ← 三大基础能力 ← Coze 培训课程
- [[AI Agent]] ← 应用形态 ← 金融行业 客户分层营销助手 ← 行业案例 ← Coze 培训课程
- [[固定镜头短视频制作的AI全流程解析]] ← related ← AI生成视频工作流 ← 泛娱乐案例 ← Coze 培训课程
## Contradictions
- 暂无发现与现有 Wiki 内容的冲突。该课程以 Coze 平台为主,与其他 AI 工具类来源(如 [[Claude Code 调用方法总结]]、[[Ollama 本地 LLM 部署]])属互补关系而非竞争关系。

View File

@@ -0,0 +1,55 @@
---
title: "Multi-Agent System Reliability"
type: source
tags: []
date: 2023-01-09
---
## Source File
- [[AI/Multi-Agent System Reliability.md]]
## Summary用中文描述
- 核心主题4种架构模式提升多智能体系统可靠性——Hierarchy、Consensus、Adversarial Debate、Knock-out
- 问题域LLM固有的不可靠性幻觉、逻辑谬误、上下文漂移在多智能体拓扑中会被放大导致系统整体不可用
- 方法/机制:借鉴人类协作系统(军队/公司/国家的反馈回路与制衡机制将LLM视为分布式系统中不可靠的组件而非"有感知"的智能体
- 结论/价值:从"AI原型"到"企业级AI"的转变关键——停止拟人化LLM开始用约束、验证、修剪、挑战的方式对待它们
## Key Claims用中文描述
- 拟人化LLM是谬误——LLM不会真正害怕死亡或渴望金钱它们只模拟这些特征因为训练数据中高风险场景往往对应高质量输出
- 不应要求模型"小心",而应强制其正确——通过架构约束而非提示词约束
- 人类协作系统的4种模式可迁移至多智能体架构Hierarchy等级制度、Consensus共识、Adversarial Debate对抗辩论、Knock-out淘汰
- 共识模式若单个模型20%概率幻觉3个模型同时幻觉同一谎言的概率仅为0.8%0.2³)
- 多样性是关键——不同模型减少思维同质化风险Agent之间不应有反馈回路否则群体思维和从众效应会扭曲结果
- 验证器可使用确定性代码单元测试、JSON schema验证或LLM本身需要快速验证输出的场景如Tree of ThoughtsEval是必要基础设施
## Key Quotes
> "Stop treating LLMs like magic chatbots. Start treating them like unreliable components in a distributed system." — 核心论点从AI原型到企业级AI的范式转变
> "We don't need AI that 'cares.' We need AI that is constrained, verified, pruned, and challenged." — 放弃拟人化,拥抱工程约束
> "If a model hallucinates 20% of the time, the chance of 3 models hallucinating the exact same lie is just 0.8% (0.2^3=0.008)." — 共识机制的概率论基础
> "Don't anthropomorphize LLMs!" — 全文核心警告
## Key Concepts
- [[Hierarchy-Agent-Pattern]]主管模型Planner制定计划→分解任务→分配给Worker→Validator验证结果核心是依赖图强制协作而非靠模型"意愿"
- [[Consensus-Voting-Pattern]]N个LLM并行执行相同任务取多数票降低幻觉概率但成本高Agent之间需盲测无反馈回路
- [[Adversarial-Debate-Pattern]]Generator提出方案→Critic攻击反驳→Judge裁判用外部批评者和评判者模拟人类的"恐惧"动机可加Watchdog打破无限辩论循环
- [[Knock-out-Pattern]]N个Agent竞争最差者淘汰用"适者生存"替代"死亡恐惧"源自遗传算法需快速验证机制Eval
- [[Tree-of-Thoughts]]Knock-out模式的进阶通过验证器决定哪些Agent被淘汰可结合赢家特征生成新Agent
- [[Genetic-Algorithm]]Tree of Thoughts的ML理论根源——遗传表示+适应度函数
- [[Reliability-Engineering]]将LLM视为不可靠组件的工程哲学——约束、验证、修剪、挑战
## Key Entities
- [[Alex Ewerlöf]]资深Staff Engineer27年经验KTH系统工程硕士专注可靠性工程和弹性架构2023年起专攻LLM本文作者
## Connections
- [[AI-Agent]] ← relates_to ← [[Multi-Agent-System-Reliability]]多智能体架构是AI Agent的高级形态
- [[Recursion Self-Optimization]] ← 与本文 Tree of Thoughts 模式相关(自引用结构)
- [[Designing for Agentic AI]] ← 互补 ← [[Multi-Agent-System-Reliability]](用户体验设计 vs 可靠性架构)
- [[Multi-Agent-Team]] ← 相关 ← [[Multi-Agent-System-Reliability]](具体实现案例 vs 架构模式理论)
- [[Content-Factory]] ← 可能应用 ← [[Hierarchy-Agent-Pattern]]Research→Writing→Thumbnail Agent链
- [[Dynamic-Dashboard]] ← 可能应用 ← [[Consensus-Voting-Pattern]](多数据源并行验证)
## Contradictions
- 与某些"AI人格化"观点冲突:
- 冲突点AI是否应被赋予"情感"或"动机"
- 当前观点LLM无真正恐惧/欲望,不应拟人化;威胁/激励提示仅通过训练数据模式匹配起效
- 对方观点:通过"$100奖励""断电威胁"等提示可真正改变AI行为质量

View File

@@ -0,0 +1,55 @@
---
title: "Nano Banana Pro 提示词指南与策略(上篇)"
type: source
tags: [ai, gemini, nanobanana, prompt-engineering, google-ai-studio, image-generation]
date: 2025-11-28
---
## Source File
- [[AI/Nano-Banana Pro Prompting Guide & Strategies 1.md]]
## Summary用中文描述
- 核心主题Google Nano Banana Pro 图像生成模型的完整提示词工程指南,涵盖从基础规则到专业级资产生产的全链路实战策略
- 问题域:如何有效使用 Nano Banana Pro 生成功能性专业资产——从信息图、病毒缩略图、到 4K 纹理和故事板
- 方法/机制:停止标签堆砌,像创意总监一样思考;利用自然语言对话式编辑;支持 14 张参考图像实现身份锁定;默认生成思考图像(不收费)后输出最终结果;集成 Google Search 实现实时数据锚定
- 结论/价值:将 AI 图像生成从"趣味性玩具"升级为"功能性专业生产工具"的核心方法论
## Key Claims用中文描述
- Nano Banana Pro 是"思考型"模型,能理解意图、物理规则和构图美学,而非简单的关键词匹配
- 模型对对话式编辑极为友好——图像 80% 正确时应编辑而非重新生成
- 支持最多 14 张参考图像6 张高保真),实现人物/角色"身份锁定"
- 默认生成思考图像(不收费)进行构图推演后再输出最终结果
- 原生支持 1K 到 4K 高分辨率输出
- 集成 Google Search 可基于实时数据生成图像,减少幻觉
## Key Quotes
> "Stop using 'tag soups' (e.g., `dog, park, 4k, realistic`) and start acting like a Creative Director." — Nano Banana Pro 核心理念
> "If an image is 80% correct, do not generate a new one from scratch. Instead, simply ask for the specific change you need." — 对话式编辑原则
> "Because the model 'thinks,' giving it context helps it make logical artistic decisions." — 上下文驱动生成
> "The identity of the woman and man and their attire must stay consistent throughout" — 故事板场景下的一致性要求
## Key Concepts
- [[身份锁定Identity Locking]]:通过参考图像保持人物面部特征、服饰、角色在整个序列中完全一致的技术
- [[对话式编辑Conversational Editing]]:不重新生成而是通过自然语言指令对现有图像进行局部修改的工作流
- [[思考模式Thinking Mode]]Nano Banana Pro 默认生成中间思考图像(不收费)以推演构图,然后再输出最终结果
- [[信息锚定Grounding with Search]]:集成 Google Search 基于实时数据(股票、天气、新闻)生成可视化图像
- [[专业资产生产Professional Asset Production]]:从"fun"趣味生成到"functional"功能性专业资产的能力跃迁
- [[创意总监式提示Creative-Director Prompting]]:使用完整自然语言句子而非标签堆砌,像对人类艺术家简报一样描述需求
## Key Entities
- [[shenwei]]:本文作者,发布于 dev.to 的 Google AI 教程作者
- [[Google AI Studio]]Nano Banana Pro 的官方使用平台,提供 Prompts 界面和参数配置
- [[Google Colab]]:与 AI Studio 配合使用的代码笔记本环境,提供代码示例
- [[AI Studio Build]]AI Studio 的 App 构建功能,可将最佳提示词快速转化为可分享应用
## Connections
- [[Nano Banana 提示词框架]] ← extends ← [[nano-banana-pro-prompting-guide-strategies-1]]
- [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]] ← extends ← [[nano-banana-pro-prompting-guide-strategies-1]]
- [[Nano Banana Pro 提示词指南]] ← is_part_of ← [[nano-banana-pro-prompting-guide-strategies-1]]
## Contradictions
- 与 [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]] 存在范围重叠:
- 冲突点:两者均介绍 Nano Banana 的提示词方法,但本篇侧重 Pro 版的高级能力,彼篇侧重 Nano Banana 2 的综合指南
- 当前观点:本篇强调 Nano Banana Pro 是 Pro 版专属的 SOTA 文本渲染和身份锁定能力
- 对方观点:彼篇将 Nano Banana 2 作为完整体系综合介绍,包含更多版本对比内容
- 结论:两者互补——框架基础 + Pro 高级指南 + Nano Banana 2 综合版,构成完整的 Nano Banana 知识体系

View File

@@ -0,0 +1,68 @@
---
title: "RAG从入门到精通系列1基础RAG"
type: source
tags: [rag, llm, 向量检索, 知识库, langchain]
date: 2025-01-16
---
## Source File
- [[AI/RAG从入门到精通系列1基础RAG.md]]
## Summary用中文描述
- 核心主题RAG检索增强生成基础原理与实战入门从 Indexing索引、Retrieval检索到 Generation生成的完整流程。
- 问题域LLM 无法使用最新数据和私有数据的根本问题,以及如何通过 RAG 打通 LLM 与外部知识库的连接。
- 方法/机制:三大核心阶段——(1) Indexing将外部文档加载、切分、Embedding 向量化后存入向量数据库;(2) Retrieval用户问题 Embedding 化后通过向量相似度检索 Top-k 相关文档块;(3) Generation将问题 + 检索结果输入 LLM 生成带事实依据的答案。实战工具链QwenLLM+ BAAIEmbedding+ LangChain编排+ Qdrant向量数据库
- 结论/价值RAG 是让 LLM 拥有外部知识的标准范式LangChain 和 LlamaIndex 等框架将三阶段流程封装为 Chain大幅降低开发门槛LangSmith 可视化整个 RAG 管道便于调试。
## Key Claims用中文描述
- RAG 将 LLM 与外部数据源(私有数据/最新数据)连接,使 LLM 能够使用非训练知识生成答案。
- Indexing 阶段通过 Embedding Model 将文本转为固定长度的语义向量,以满足向量相似度检索的需求。
- 由于 Embedding Model 的 Context Window 有限512~8192 token需将外部文档切分成满足窗口大小的 Split文档块
- Retrieval 阶段根据用户问题的语义向量,在向量数据库中按相似度(余弦相似度等)找出 Top-k 个最相关的文档块。
- Generation 阶段将问题与检索到的文档块通过 PromptTemplate 组合为 Prompt输入 LLM 生成有事实依据的最终答案。
- LangChain 和 LlamaIndex 将 Indexing-Retrieval-Generation 三阶段封装为 Chain简化 RAG 应用开发。
- LangSmith 提供 RAG 管道的全链路可视化监控和调试能力。
## Key Quotes
> "RAGRetrieval Augmented Generation检索增强生成是一种将 LLM 与外部数据源(例如私有数据或最新数据)连接的通用方法。它允许 LLM 使用外部数据来生成其输出。" — RAG 的定义与价值
> "Embedding Model 的 Context Window 有限,我们不能直接把整篇文档丢进去,所以要将原始文档拆分成一个个文档块。" — 文档切分的必要性
> "看起来很复杂,但这就是 LangChain 和 LlamaIndex 这类框架存在的意义。" — 框架的价值定位
## Key Concepts
- [[RAG]]:检索增强生成,将 LLM 链接外部知识库的核心技术架构
- [[Indexing]]:索引阶段,将外部文档加载、切分、向量化后存入向量数据库
- [[Retrieval]]:检索阶段,通过向量相似度从数据库中检索与问题相关的文档块
- [[Generation]]:生成阶段,将问题+检索结果输入 LLM 生成答案
- [[Embedding]]:将文本转为固定长度语义向量的技术,是向量检索的基础
- [[Vector Store]](向量数据库):存储 Embedding Vector 并实现相似度比较的数据库系统,如 Qdrant
- [[Split]](文档块):将长文档切分后满足 Embedding Model Context Window 的文本片段
- [[Context Window]]:模型一次性处理的最大 token 数量Embedding Model 通常为 512~8192 token
- [[PromptTemplate]]:将问题与上下文组装为 LLM 输入 Prompt 的模板技术
- [[Chain]]LangChain 中将多个步骤串联执行的抽象RAG Chain 串联 Retrieval 与 Generation
- [[Token]]:模型处理文本的基本单位,英文约 3~4 字母/token中文约 1 汉字/token
## Key Entities
- [[LangChain]]Python/LLM 应用开发框架提供文档加载器、Embedding、Vector Store、Chain、RAG 原语
- [[Qwen]]:阿里通义千问系列 LLM本教程中用作 Generation 阶段的 LLM
- [[BAAI]]BGE Embedding开源 Embedding Model 系列,将文本转为语义向量
- [[Qdrant]]Rust 编写的开源向量数据库,存储 Embedding Vector 并提供相似度检索
- [[LlamaIndex]]:另一主流 LLM 数据框架(与 LangChain 并列),专注知识增强
- [[LangSmith]]LangChain 官方平台,用于构建、监控和评估生产级 LLM 应用,支持 RAG 管道可视化
- [[PyTorch研习社]]:文章来源微信公众号
## Connections
- [[RAG]] ← 基础理论 ← [[rag从入门到精通系列1-基础rag]]
- [[RAG]] ← 依赖 ← [[Embedding]]
- [[RAG]] ← 依赖 ← [[Vector Store]]
- [[RAG]] ← 工具链 ← [[LangChain]]
- [[RAG]] ← 工具链 ← [[LlamaIndex]]
- [[Indexing]] ← 依赖 ← [[Embedding]]
- [[Retrieval]] ← 依赖 ← [[Vector Store]]
- [[Generation]] ← 依赖 ← [[PromptTemplate]]
- [[Indexing]] ← 依赖 ← [[LangChain]](文档加载器/Splitter/Embedding/Vector Store
- [[Retrieval]] ← 依赖 ← [[LangChain]]Retriever
- [[Generation]] ← 依赖 ← [[LangChain]]Chain/PromptTemplate
- [[rag从入门到精通系列1-基础rag]] ← 系列第一篇 → 其他 RAG 系列文章(待补充)
## Contradictions
- 与其他 RAG 进阶技术存在优化方向上的差异:本文为基础 RAGNaive RAG采用直接向量检索 + 简单拼接 Prompt 的朴素方案。与 Advanced RAG包含 Query Rewrite、Step-back Prompt、HyDE 等查询优化技术)和 RAG Fusion多路召回 + RRF 重排)等进阶方案相比,基础 RAG 在检索质量和上下文利用上存在局限。当前 Wiki 中暂无 Advanced RAG 或 RAG Fusion 的专门页面,此冲突待后续补充进阶内容后更新。

View File

@@ -0,0 +1,49 @@
---
title: "全网最全Nano Banana 2 使用指南2025年12月更新"
type: source
tags: [AI图像生成, Gemini, NanoBanana, DeepSider]
date: 2025-12-01
---
## Source File
- [[AI/全网最全Nano Banana 2 使用指南2025年12月更新 1.md]]
## Summary用中文描述
- 核心主题Google Nano Banana 2Gemini 3 Pro ImageAI 绘图模型的国内使用指南
- 问题域:国内用户如何便捷访问和使用 Google Gemini 3 系列图像生成模型
- 方法/机制:通过 DeepSider 浏览器插件Edge 扩展)直接访问 Nano Banana 2无需特殊网络和海外账户
- 结论/价值DeepSider 是国内用户访问 Gemini 3 Pro/Nano Banana 2 等多款 AI 大模型的最便捷渠道之一
## Key Claims用中文描述
- Nano Banana 2 是 Google 发布的推理型图像生成模型Gemini 3 Pro Image正式代号为 Gemini 3 Pro Image
- Nano Banana 2 是一款推理模型,在生成图像前会进行内部推理,直接碾压一众 AI 绘图模型
- Nano Banana 2 具备更高的图像质量、更高的准确性、更好的多语言长文本渲染能力
- Nano Banana 2 可输出 1K、2K、4K 分辨率图像,最多可将 14 张输入图像组合为 1 张输出图像
- DeepSider 是一款浏览器插件,安装后国内可直接访问 Nano Banana 2 / Gemini 3.0 / GPT-5.1 等数十款 AI 大模型
- DeepSider 专为中文用户设计,无需特殊网络,无需海外账户
## Key Quotes
> "原本以为 Nano Banana 已经够强,没想到 Nano2 的实测效果比想象中还要惊艳,直接碾压一众 AI 绘图模型!堪称火力全开!" — 文章导语
> "它Nano Banana 2就能自动进行检索和思考填补上所有的细节。" — Nano Banana 2 自动推理描述
> "DeepSider 一个插件就能体验多款热门 AI 大模型,对国内用户来说更流畅、更方便。" — DeepSider 价值总结
## Key Concepts
- [[推理型图像生成模型]]Nano Banana 2 在生成图像前会进行内部推理,自动补完用户提示词的深层次需求
- [[多语言长文本渲染]]Nano Banana 2 的核心能力之一,能够在图像中准确渲染复杂的中文界面和长文本
- [[图像推理模型]]与传统图像模型不同Nano Banana 2 在生成图像前进行内部推理,而非简单的关键词匹配
## Key Entities
- [[Nano Banana 2]]Google 发布的 AI 图像生成模型Gemini 3 Pro Image代号 Gemini 3 Pro Image具备推理能力支持 1K/2K/4K 输出和 14 张图像组合
- [[DeepSider]]Edge 浏览器插件deepsider.ai国内用户访问 Gemini 3 / Nano Banana 2 的便捷渠道,支持 GPT5/GPT4.1/Claude/Gemini 2.5 Pro/Grok/Nano Banana/Sora 2 等数十款 AI 模型
- [[Gemini 3 Pro]]Google Gemini 3 系列中的图像生成模型,即 Nano Banana 2 的正式代号
## Connections
- [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]] ← 使用 ← [[DeepSider]]
- [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]] ← 介绍 ← [[Nano Banana 2]]
- [[Nano Banana Pro 提示词指南]] ← 相关 ← [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]](同一系列)
- [[Nano Banana 提示词框架]] ← 相关 ← [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]](同一系列)
## Contradictions
- 暂无发现与其他 Wiki 页面的明显冲突

View File

@@ -0,0 +1,63 @@
---
title: "固定镜头短视频制作的AI全流程解析"
type: source
tags: ["AI视频生成", "短视频制作", "家装视频", "AI工具链", "视频剪辑"]
date: 2026-04-23
---
## Source File
- [[raw/AI/固定镜头短视频制作的AI全流程解析.md]]
## Summary用中文描述
- 核心主题:利用 AI 技术快速制作高播放量固定机位家装类短视频的全流程方法论
- 问题域:传统视频制作周期长、镜头语言复杂、设备要求高,难以规模化复制的痛点
- 方法/机制:固定机位 + 内容连续变化 + 时间压缩三大核心原理分镜拆解Google AI Studio→ 九宫格图像生成Midjourney/Nano Banana→ 首尾针动画海螺AI/KAI→ 快节奏剪辑(剪映)→ 声音设计
- 结论/价值AI 介入后 10 分钟内可完成成片,适用于所有固定机位且状态变化明显的短视频类型
## Key Claims用中文描述
- 固定机位是视频画面统一和连贯的基础,减少复杂摄像设备需求
- 九宫格一次性生成 3×3 共九个画面,保证机位与角度不变,画面一致性强
- 首尾针动画通过上传首针和尾针图AI 自动补齐中间变化,实现自然动画效果
- 快节奏剪辑统一加速 2-4 倍、避免复杂转场、画面轻微裁边即可获得干净效果
- 声音设计(施工音效 + 节奏感强的 BGM + 精准卡点)决定观众观看体验
## Key Quotes
> "固定机位、内容连续变化、时间压缩三个特点使视频非常适合用 AI 技术生成" — 视频核心原理
> "一次性用三乘三九宫格图生成九个分镜画面,机位和角度不变,细节只表现施工进度的变化" — 九宫格法优势
> "首尾针动画本身提供平滑过渡,硬切清晰干净,避免视觉干扰" — 快节奏剪辑原则
> "即使不完整也能增强真实感" — 施工音效的价值
## Key Concepts
- [[固定机位]]:摄像机位置固定不变,是视频画面统一和连贯的基础,使 AI 能稳定处理时间推移
- [[内容连续变化]]:视频主体信息随时间持续发生明确阶段性变化,适合 AI 生成中间过渡帧
- [[时间压缩]]:将长时间拍摄过程在视频中浓缩表现的手法,如装修从毛坯到精装修的完整过程
- [[分镜拆解]]将视频内容拆分成多个画面阶段描述Google AI Studio 可自动分析视频并生成九宫格分镜
- [[九宫格法]]:同时生成 3×3 共九个画面,保证机位与角度不变,画面一致性强,避免逐帧独立生成导致光影错乱
- [[首尾针动画]]通过上传首针图和尾针图AI 自动补齐中间变化,产生连贯动画的技术
- [[快节奏剪辑]]使用加速播放2-4倍和硬切换手法强化节奏感与流畅度
- [[卡点]]:画面变化与音乐节奏巧妙同步,提高观看体验
- [[Nano Banana]]Google AI Studio 的图像生成模型,用于生成高质量分镜画面
- [[KAI]]AI 视频生成工具,支持首尾针动画生成短视频片段
## Key Entities
- [[Midjourney]]AI 图像生成工具(设计师类),用于将分镜描述转换为一致图像
- [[Nano Banana]]Google 图像生成模型(设计师类),用于高质量分镜画面生成
- [[海螺AI]]MiniMax动效类 AI 工具,支持首尾针动画生成
- [[KAI]]:动效类 AI 工具,通过 AI Video API 生成阶段视频片段
- [[Google AI Studio]]:大脑类 AI 工具,负责将视频逻辑转化为 AI 能识别的分镜语言
- [[剪映]]:字节跳动视频剪辑工具,用于最终视频合成、加速和转场处理
## Connections
- [[Google AI Studio]] ← generates storyboards → [[九宫格法]]
- [[Midjourney]] / [[Nano Banana]] ← generates images → [[首尾针动画]]
- [[海螺AI]] / [[KAI]] ← generates video clips → [[快节奏剪辑]]
- [[快节奏剪辑]] ← composited in → [[剪映]]
- [[固定机位]] ← enables → [[内容连续变化]]
- [[内容连续变化]] + [[时间压缩]] ← forms the core principle → [[固定镜头短视频]]
## Contradictions
- 与传统视频制作理念冲突:
- 冲突点:是否需要复杂镜头移动和转场效果
- 当前观点(本文):固定机位 + 硬切 + 无复杂转场反而更干净高效
- 对方观点:传统视频制作强调镜头语言丰富性和视觉转场多样性
- 评估:本文专注于特定类型(固定机位状态变化视频),不适用于需要复杂镜头语言的其他视频类型

View File

@@ -0,0 +1,75 @@
---
title: "大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏"
type: source
tags: [llm, mcp, prompt, rag, token, vllm, embedding, langchain]
sources: []
last_updated: 2026-04-25
---
## Source File
- [[AI/大模型相关术语和框架总结LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md]]
## Summary用中文描述
- 核心主题大模型LLM生态核心术语与框架的系统性梳理面向初学者
- 问题域大模型是什么、如何与大模型交互Prompt、如何扩展大模型能力MCP/Agent、如何解决幻觉问题RAG、如何高效部署推理vLLM、如何用小模型学习大模型能力蒸馏
- 方法/机制:
- Prompt通过自然语言指令向 LLM 输入任务描述
- MCP标准化协议连接 LLM 与外部工具/数据源
- Agent在 MCP 框架下LLM 规划调用工具并执行多步任务
- RAG检索外部知识注入 LLM 上下文,减少幻觉
- vLLMPagedAttention + 连续批处理实现高效 GPU 利用率
- Embedding将文本词转换为浮点向量通过距离计算语义相似性
- 数据蒸馏:用大模型生成精简训练数据,使小模型逼近大模型效果
- 结论/价值:本文是大模型入门术语速查手册,将 LLM/MCP/Agent/RAG/Embedding/LangChain/vLLM/Token/蒸馏 等核心概念用通俗语言串联,适合快速建立 AI 技术认知框架
## Key Claims用中文描述
- LLM 参数规模 ≥1B十亿参数是大模型行业门槛GPT-2 为 1.5BGPT-3 为 175B
- MCP 是 LLM 连接外部工具和数据的标准化协议,解决不同模型/工具集成的碎片化问题
- 大模型本身只返回方法步骤,不执行实际操作;需要 MCP 框架才能真正触发工具调用
- LLM + MCP + 工具 = AI AgentAgent 能真正执行发邮件等外部操作
- RAG 通过检索外部知识注入,将 LLM 回答正确率从约 60% 提升至约 90%
- Embedding 通过将词转为浮点向量,用向量距离衡量语义相似性,解决一词多义问题
- vLLM 通过 PagedAttention分块 KV Cache和连续批处理最大化 GPU 利用率,降低推理成本
- Token 是 LLM 的基本输入单元:英文约 0.3 token/字符,中文约 0.6 token/字符
- 数据蒸馏利用高性能大模型生成精简数据,使小模型能以更低成本逼近大模型效果
## Key Quotes
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 与 LLM 的能力边界说明
> "LLM 在考试的时候面对陌生的领域只会写一个解字因为LLM复习也只是局限于特定的数据集然后就准备放飞自我了而此时RAG给了亿些提示让LLM懂了开始往这个提示的方向做最终考试的正确率从60%到了90%" — RAG 减少幻觉的可视化类比
> "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 向量距离与语义相似性的关系
> "KV Cache 把这些历史 K/V 保存下来,后续步不用重复计算。但 KV Cache 随上下文长度、层数、头数、维度线性增长,也变成推理中的最大显存开销之一。" — vLLM 优化 KV Cache 的动机
## Key Concepts
- [[Large Language Model]]:大语言模型,以 ≥1B 参数为行业门槛的深度神经网络语言模型,通过大规模预训练获得语言理解和生成能力
- [[Prompt]]:提示词,用户向 LLM 输入的自然语言指令,引导模型产出特定类型的响应
- [[Model Context Protocol]]MCP开放协议为 LLM 应用提供标准化接口,使其能够连接外部数据源和工具进行交互
- [[AI Agent]]智能体LLM + MCP 工具框架的融合体,能够感知环境、规划步骤、调用工具并执行多步任务(如发邮件)
- [[Retrieval-Augmented Generation]]RAG检索增强生成通过从外部知识库检索相关内容注入 LLM 上下文,减少幻觉、提升回答准确率
- [[Embedding]]:向量化,将文本转换为浮点向量,通过向量距离计算语义相似性,解决一词多义问题
- [[LangChain]]:快速实现 AI Agent 的开发框架,提供标准化接口用于连接不同 LLM 和工具/数据源
- [[vLLM]]:开源 LLM 推理框架,通过 PagedAttention分块 KV Cache和连续批处理优化 GPU 内存利用率,实现高吞吐、低成本推理
- [[Token]]LLM 的基本输入单元,约等于一个单词或短语;英文约 0.3 token/字符,中文约 0.6 token/字符
- [[Data Distillation]](数据蒸馏):利用大模型生成精简训练数据,使小模型能够从中学习并逼近大模型效果的技术
- [[KV Cache]]Transformer 解码过程中保存历史 Key/Value 向量的缓存机制,避免重复计算,但带来显存瓶颈
- [[PagedAttention]]vLLM 提出的注意力机制,将 KV Cache 分块管理(类操作系统页表),避免显存碎片化
- [[Continuous Batching]](连续批处理):在每个解码步骤动态组装活跃请求为批次,无需等待整批结束即可插入新请求,提高 GPU 利用率
## Key Entities
- [[shenwei]]:本文作者,公众号 shenwei 投稿
- [[OpenAI]]GPT 系列模型的开发公司GPT-2/GPT-3 参数量引用来源)
- [[vLLM]]:开源社区维护的 LLM 推理加速框架,提供 PagedAttention 实现
## Connections
- [[Large Language Model]] ← is_the_core_of ← [[AI Agent]]
- [[Model Context Protocol]] ← enables ← [[AI Agent]]
- [[AI Agent]] ← requires ← [[Prompt]]
- [[Retrieval-Augmented Generation]] ← solves_problem_of ← [[Hallucination]]
- [[vLLM]] ← uses ← [[PagedAttention]]
- [[vLLM]] ← uses ← [[Continuous Batching]]
- [[Data Distillation]] ← transfers_knowledge_from ← [[Large Language Model]]
## Contradictions
- 与 [[llms-rag-ai-agent-三个到底什么区别]] 互补而非冲突:本文侧重入门术语科普式解释(通俗语言 + 可视化类比后者侧重三层架构的系统性梳理LLM 思考层 / RAG 认知层 / Agent 执行层),两者结合可形成从入门到深入的完整认知路径。

View File

@@ -0,0 +1,52 @@
---
title: "我用 Gemini 3 一口气做了 10 个应用,附教程"
type: source
tags: [AI应用, Gemini-3, 提示词工程, 前端可视化, Vibe-Coding]
date: 2025-11-24
---
## Source File
- [[AI/我用 Gemini 3 一口气做了 10 个应用,附教程]]
## Summary用中文描述
- 核心主题:使用 Google Gemini 3 模型,通过简单的对话式提示词,配合前端 SVG/HTML 可视化,在极短时间内构建 10 个实用的 AI 应用(冷知识卡片、配色卡片、电影海报、绘画思维导图等)。
- 问题域:如何快速将 AI 的文字生成能力转化为可直接使用的可视化产品。
- 方法/机制:作者提出三步方法论——①限定垂直输入场景(如诗词/小说/电影)→ ②用提示词 + MCP 约束模型结构化输出 → ③用前端代码SVG/HTML作为输出容器。核心机制是让 AI 先输出 SVG 语言,再由前端渲染成精美卡片/海报/导图。
- 结论/价值Gemini 3 的多模态能力和结构化输出使得"两句话做一个应用"成为现实;前端 SVG 可视化是 AI 生成内容落地的关键桥梁。
## Key Claims用中文描述
- Gemini 3 模型通过提示词约束可实现结构化输出,直接生成 SVG 代码。
- 冷知识卡片应用中,蝴蝶生命周期 SVG 可视化展示了信息设计的潜力。
- 配色卡片通过提示词引导,可自动生成莫奈等艺术家风格的主题色板。
- 电影海报应用中Gemini 能根据电影名生成海报图、简介、上映时间和导演信息。
- 绘画思维导图应用解决了"有关键词但不知道怎么写提示词"的核心痛点。
- 整个方法论的核心是:垂直场景 + 结构化约束 + 前端容器,三步缺一不可。
## Key Quotes
> "制作原理,就是让 AI 输出 SVG 的语言,可视化展示整个信息。" — 空格,解释冷知识卡片的技术原理
> "这些都是靠提示词设计的。约束好大模型结构化输出信息。" — 空格,总结 Gemini 应用开发的核心技巧
> "如果你感兴趣的话,我下期再来详细分享一下做这些应用的具体对话内容,我是怎么把这些应用两句对话就实现出来的。" — 空格,预告后续内容
## Key Concepts
- [[SVG可视化]]:通过 AI 生成 SVG 代码实现信息可视化,是 Gemini 输出落地的核心技术路径
- [[结构化输出]]:通过提示词约束模型输出格式,实现 JSON/结构化数据直接生成
- [[Vibe-Coding]]:以对话驱动 + AI 结对执行的开发范式,与本文三步方法论高度契合
- [[AI应用开发]]:从 AI 模型输出到可交付产品的完整链路实践
## Key Entities
- [[Gemini-3]]Google 最新多模态大模型,支持文本、图像混合输入输出,支持 SVG 结构化生成
- [[Google-AI-Studio]]Google AI 开发平台ai.studio文中提供多个应用体验地址
## Connections
- [[Vibe-Coding]] ← 方法论相似 ← 本文三步法(场景→约束→容器)
- [[Nano-Banana-2]] ← 同一作者风格 ← 同为 AI 可视化应用类文章
- [[SVG可视化]] ← 核心技术 ← 连接多个 AI 应用类来源
## Contradictions
- 暂无冲突内容。
## 应用示例(原文)
- **冷知识卡片**:蝴蝶生命周期 SVG 可视化,可下载为 PNG体验地址https://gemini.google.com/share/26884961f77a
- **配色卡片**:输入"莫奈"获取主题色和命名色卡,适合设计场景
- **电影海报**:输入"星际穿越"生成黑白风格海报、简介、上映时间、导演
- **绘画思维导图**:输入"柯基"→ AI 头脑风暴生成相关词汇思维导图 → 用户选择关键词 → 生成最终图片