Auto-sync: 2026-04-18 03:18
This commit is contained in:
@@ -2,25 +2,31 @@
|
||||
title: "AI代理(Agent)"
|
||||
type: concept
|
||||
tags: [ai, cursor, agent]
|
||||
date: 2026-04-17
|
||||
date: 2026-04-18
|
||||
---
|
||||
|
||||
## Definition
|
||||
基于 AI 模型的自动化任务助手,可以按模式生成代码、规划任务或回答问题。在 Cursor 中,AI 代理有三种模式:Plan(规划)、Agent(执行)、Ask(咨询)。
|
||||
具备自主决策和任务执行能力的 AI 系统,围绕 LLM 构建循环控制系统,能够感知目标、规划步骤、执行动作、并能够反思结果。
|
||||
|
||||
## Context
|
||||
- Cursor 中的 AI 代理
|
||||
## Core Capability
|
||||
AI Agent = 思考(LLM)+ 认知(RAG)+ 行动,三者的组合实现真正的自主性。
|
||||
|
||||
## Key Modes
|
||||
## Agent Loop(代理循环)
|
||||
AI Agent 通过五步循环实现其目标:
|
||||
|
||||
1. **获取任务**:由具体且高层次的目标启动,可由用户或自动触发机制激活
|
||||
2. **扫描场景**:感知环境获取上下文信息,协调层访问可用资源(用户请求、记忆、工具)
|
||||
3. **仔细思考**:核心"思考"循环,由推理模型驱动,将任务与场景分析并制定行动计划
|
||||
4. **采取行动**:编排层执行计划的具体操作,选择并调用适当的工具(API、代码函数、数据库查询)
|
||||
5. **观察并迭代**:观察行动结果,将新信息添加到上下文或记忆中,然后回到步骤3继续循环
|
||||
|
||||
## Usage in Cursor
|
||||
- **Plan 模式**:生成计划,不修改代码
|
||||
- **Agent 模式**:执行计划,会修改代码文件
|
||||
- **Ask 模式**:仅返回文本答案,不改动文件
|
||||
|
||||
## Usage
|
||||
1. Plan 模式用于生成开发计划
|
||||
2. Agent 模式用于实际代码生成
|
||||
3. Ask 模式用于咨询问题,安全无副作用
|
||||
|
||||
## Related Concepts
|
||||
- [[LLM]]:负责推理和思考
|
||||
- [[RAG]]:负责提供实时外部知识
|
||||
- [[Plan Mode]]:方案预览模式
|
||||
- [[Build Mode]]:实际执行模式
|
||||
36
wiki/concepts/LLM.md
Normal file
36
wiki/concepts/LLM.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: "LLM"
|
||||
type: concept
|
||||
tags: [llm, ai, 大语言模型]
|
||||
date: 2026-04-18
|
||||
---
|
||||
|
||||
## Definition
|
||||
大型语言模型(Large Language Model),AI 应用的"天才大脑",学习了过去上下五千年的所有知识,擅长思考和推理,但对当前情况一无所知。
|
||||
|
||||
## Core Characteristics
|
||||
- **知识截止时间**:LLM 的知识有训练数据的时间节点限制,例如 ChatGPT-5 的知识截止到 2024 年 6 月
|
||||
- **静态知识**:只能回答训练数据范围内的问题,无法直接获取实时信息
|
||||
- **推理能力**:在思考方面非常出色,可以帮助写文章、分析问题、编程、画画等
|
||||
|
||||
## LLM Types
|
||||
- **底座大模型(Base Model)**:通用模型,如 ChatGPT、DeepSeek、Qwen
|
||||
- **专有模型(Specialized Model)**:专项训练的模型,如:
|
||||
- 绘画模型:Midjourney、Stable Diffusion、Flux
|
||||
- 编程模型:Claude、Cursor
|
||||
|
||||
## Limitations
|
||||
1. 无法直接获取实时信息
|
||||
2. 对当前情况一无所知
|
||||
3. 可能产生幻觉(胡编乱造)
|
||||
|
||||
## Solution: Combine with RAG and Agent
|
||||
最佳实践架构:
|
||||
- **LLM**:用于思考和推理
|
||||
- **RAG**:用于提供实时外部知识(认知)
|
||||
- **Agent**:用于自主决策和执行
|
||||
|
||||
## Related Concepts
|
||||
- [[RAG]]:为 LLM 提供外部实时知识
|
||||
- [[AI代理]]:基于 LLM 构建的自主行动系统
|
||||
- [[向量数据库]]:RAG 系统的基础设施
|
||||
28
wiki/concepts/Nano-Banana-Pro.md
Normal file
28
wiki/concepts/Nano-Banana-Pro.md
Normal file
@@ -0,0 +1,28 @@
|
||||
---
|
||||
title: "Nano Banana Pro"
|
||||
type: concept
|
||||
tags: [ai, image-generation]
|
||||
sources: [google-nano-banana-pro-prompt-guide.md]
|
||||
last_updated: 2025-12-18
|
||||
---
|
||||
|
||||
## Summary
|
||||
Google 生成式 AI 团队发布的专业级图像生成模型,从"趣味性"图像生成转向"功能性"专业资产生产。支持文本渲染、角色一致性、视觉合成、世界知识(搜索)和高分辨率(4K)输出。
|
||||
|
||||
## Key Capabilities
|
||||
- **意图理解引擎**:物理规则推演、构图美学理解、语义上下文推理
|
||||
- **文本渲染**:SOTA 级别的清晰易读、风格化文本渲染
|
||||
- **角色一致性**:最多 14 张参考图像(6 张高保真度),身份锁定
|
||||
- **信息锚定**:利用 Google 搜索,基于实时数据生成图像
|
||||
- **高级编辑**:语义指令进行复杂编辑(图像修补、着色、风格转换)
|
||||
- **维度转换**:2D 示意图与 3D 可视化之间的转换
|
||||
- **高分辨率**:原生 1K 至 4K 图像生成
|
||||
- **思考模式**:渲染前生成临时思考图像优化构图
|
||||
|
||||
## Connections
|
||||
- [[Google]] ← publishes
|
||||
- [[提示词黄金法则]] ← applies to
|
||||
- [[文本渲染]] ← capability of
|
||||
- [[角色一致性]] ← capability of
|
||||
- [[信息锚定]] ← capability of
|
||||
- [[4K分辨率]] ← supports
|
||||
@@ -1,23 +1,30 @@
|
||||
---
|
||||
title: "RAG"
|
||||
type: concept
|
||||
tags: []
|
||||
tags: [llm, rag, ai]
|
||||
date: 2026-04-18
|
||||
---
|
||||
|
||||
## Description
|
||||
检索增强生成(Retrieval-Augmented Generation),结合知识库检索和 AI 生成答案的技术框架。
|
||||
检索增强生成(Retrieval-Augmented Generation),为 LLM 提供外部实时知识的机制,被誉为 LLM 的"随身图书馆助理"。
|
||||
|
||||
## Core Problem
|
||||
LLM 只能回答训练数据截止时间之前的问题,对实时信息一无所知。LLM 在思考方面非常出色,但对当前情况却一无所知。
|
||||
|
||||
## Key Components
|
||||
- 知识库索引:文档向量化存储
|
||||
- 检索模块:根据查询找到相关上下文
|
||||
- 生成模块:基于检索内容生成答案
|
||||
- 引用机制:提供答案的来源引用
|
||||
- **检索(Retrieval)**:从外部知识库(向量数据库、知识图谱、公司内部文档等)检索最相关的信息块
|
||||
- **增强生成(Augmented Generation)**:将检索到的内容作为上下文输入 LLM,指示其基于这些上下文生成答案
|
||||
|
||||
## Use Cases
|
||||
- 文档问答
|
||||
- 知识管理
|
||||
- 研究辅助
|
||||
## Key Benefits
|
||||
1. **知识更新与定制**:无需重新训练 LLM 即可获取最新信息
|
||||
2. **消除幻觉**:通过提供事实依据,极大降低 LLM 胡编乱造的风险
|
||||
3. **引用来源**:可提供信息来源链接或文档页码,增加可信度
|
||||
|
||||
## Related Technologies
|
||||
- [[向量数据库]]:存储和检索知识的技术
|
||||
- [[NL2SQL]]:自然语言转 SQL,使 Agent 能直接查询数据库
|
||||
|
||||
## Connections
|
||||
- 依赖 [[LLM]] 进行答案生成
|
||||
- 与 [[开源平替]] 结合实现私有化部署
|
||||
- 使用 [[语义搜索]] 提高检索精度
|
||||
28
wiki/concepts/个性化配置.md
Normal file
28
wiki/concepts/个性化配置.md
Normal file
@@ -0,0 +1,28 @@
|
||||
---
|
||||
title: "个性化配置"
|
||||
type: concept
|
||||
tags: [ai, customization, user-preference]
|
||||
date: 2026-04-18
|
||||
---
|
||||
|
||||
## Definition
|
||||
用户根据自身背景、需求和偏好,对 AI 产品进行定制化设置的过程,旨在获得更符合个人需求的交互体验。
|
||||
|
||||
## Components
|
||||
- **身份背景**:用户的年龄、职业、专业背景
|
||||
- **行为偏好**:对 AI 响应的风格、深度、格式要求
|
||||
- **专业程度**:用户对不同领域的信息期望(专家级 vs 初学者)
|
||||
- **信息源偏好**:对来源权威性的态度(重视论证 vs 重视来源)
|
||||
|
||||
## Example
|
||||
用户(47岁前云服务交付高级经理)配置 ChatGPT:
|
||||
- 视为所有领域专家,避免启蒙式交互
|
||||
- 重视论证质量而非来源权威性
|
||||
- 要求高度有条理且详细的响应
|
||||
- 明确拒绝道德说教
|
||||
|
||||
## Related Entities
|
||||
- [[ChatGPT]]:支持个性化配置的 AI 产品
|
||||
|
||||
## Related Concepts
|
||||
- [[自定义指令]]:实现个性化配置的具体功能
|
||||
36
wiki/concepts/人物描述框架.md
Normal file
36
wiki/concepts/人物描述框架.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: "人物描述框架"
|
||||
type: concept
|
||||
tags: [prompt, nano-banana, image-generation]
|
||||
date: 2026-04-18
|
||||
---
|
||||
|
||||
## Definition
|
||||
Google Nano Banana 图像生成模型的人物提示词结构化描述模板。
|
||||
|
||||
## Structure
|
||||
```json
|
||||
{
|
||||
"shot": "",
|
||||
"subject": {
|
||||
"age": "",
|
||||
"appearance": "",
|
||||
"pose": ""
|
||||
},
|
||||
"environment": "",
|
||||
"lighting": "",
|
||||
"camera": {
|
||||
"focal_length": "",
|
||||
"aperture": "",
|
||||
"angle": ""
|
||||
},
|
||||
"color_grade": "",
|
||||
"style": "",
|
||||
"quality": "",
|
||||
"negatives": ""
|
||||
}
|
||||
```
|
||||
|
||||
## Related Concepts
|
||||
- [[物件描述框架]]
|
||||
- [[Camera Config]]
|
||||
21
wiki/concepts/信息锚定.md
Normal file
21
wiki/concepts/信息锚定.md
Normal file
@@ -0,0 +1,21 @@
|
||||
---
|
||||
title: "信息锚定"
|
||||
type: concept
|
||||
tags: [ai, image-generation]
|
||||
sources: [google-nano-banana-pro-prompt-guide.md]
|
||||
last_updated: 2025-12-18
|
||||
---
|
||||
|
||||
## Summary
|
||||
Nano Banana Pro 利用 Google 搜索,基于实时数据、时事或事实核查生成图像,减少在时效性话题上的 AI 幻觉。
|
||||
|
||||
## Best Practices
|
||||
- 要求可视化动态数据(天气、股票、新闻)
|
||||
- 模型在生成图像前会"思考"搜索结果
|
||||
|
||||
## Example Use Cases
|
||||
- "根据当前的旅行趋势,生成一张关于 2025 年美国国家公园最佳游览时间的信息图。"
|
||||
|
||||
## Connections
|
||||
- [[Nano Banana Pro]] ← implements
|
||||
- [[AI幻觉]] ← addresses
|
||||
20
wiki/concepts/图像修补.md
Normal file
20
wiki/concepts/图像修补.md
Normal file
@@ -0,0 +1,20 @@
|
||||
---
|
||||
title: "图像修补"
|
||||
type: concept
|
||||
tags: [ai, image-generation]
|
||||
sources: [google-nano-banana-pro-prompt-guide.md]
|
||||
last_updated: 2025-12-18
|
||||
---
|
||||
|
||||
## Summary
|
||||
Nano Banana Pro 通过语义指令进行复杂编辑的能力,包括对象移除/添加、修复老照片、漫画着色、风格转换。无需手动绘制遮罩,自然语言描述即可完成。
|
||||
|
||||
## Types
|
||||
- **对象移除与图像修补**:移除对象并用合理纹理填充
|
||||
- **漫画/连环画着色**:为黑白漫画上色,保持角色官方配色
|
||||
- **本地化**:文本翻译 + 文化适配场景转换
|
||||
- **光线/季节控制**:改变季节、光线效果
|
||||
|
||||
## Connections
|
||||
- [[Nano Banana Pro]] ← implements
|
||||
- [[角色一致性]] ← related to
|
||||
24
wiki/concepts/提示词黄金法则.md
Normal file
24
wiki/concepts/提示词黄金法则.md
Normal file
@@ -0,0 +1,24 @@
|
||||
---
|
||||
title: "提示词黄金法则"
|
||||
type: concept
|
||||
tags: [ai, prompt-engineering]
|
||||
sources: [google-nano-banana-pro-prompt-guide.md]
|
||||
last_updated: 2025-12-18
|
||||
---
|
||||
|
||||
## Summary
|
||||
Google 官方发布的 Nano Banana Pro 提示词设计四原则,用于指导用户像创意总监一样思考而非简单堆砌关键词。
|
||||
|
||||
## Key Principles
|
||||
1. **编辑而非重新生成**:保留 80% 正确的基础上进行修改,而非从头生成新图像
|
||||
2. **使用自然语言和完整句子**:像向人类艺术家做简报一样与模型对话
|
||||
3. **具体且具有描述性**:定义主体、场景、光线和氛围,避免模糊表述
|
||||
4. **提供上下文**:说明"为什么"或"为谁",帮助模型做出合乎逻辑的艺术决策
|
||||
|
||||
## Example
|
||||
- ❌ 差:"酷车,霓虹,城市,夜晚,8k。"
|
||||
- ✅ 好:"一张电影感的广角镜头,展示一辆未来主义跑车在雨夜中飞驰穿过东京街道。霓虹灯招牌的灯光反射在湿漉漉的路面和跑车的金属底盘上。"
|
||||
|
||||
## Connections
|
||||
- [[提示语设计]] ← applies
|
||||
- [[Nano Banana Pro]] ← implements
|
||||
28
wiki/concepts/提示语设计.md
Normal file
28
wiki/concepts/提示语设计.md
Normal file
@@ -0,0 +1,28 @@
|
||||
---
|
||||
title: "提示语设计"
|
||||
type: concept
|
||||
tags: [AI, 提示工程, DeepSeek]
|
||||
date: 2026-04-18
|
||||
---
|
||||
|
||||
## Definition
|
||||
通过精心设计的提示词(Prompt)来引导 AI 模型生成更高质量输出的技术。提示语设计不仅仅是提供任务指令,还包括理解 AI 的工作原理、选择合适的模型、设计有效的提问方式。
|
||||
|
||||
## Core Principles
|
||||
- 明确任务目标
|
||||
- 提供充分上下文
|
||||
- 使用具体示例
|
||||
- 设定输出格式
|
||||
- 迭代优化提示词
|
||||
|
||||
## Related Concepts
|
||||
- [[AI幻觉]]:通过提示语设计可以减少 AI 生成错误内容的概率
|
||||
- [[DeepSeek]]:该概念在此文档中有专门的最佳实践指南
|
||||
- [[LLM]]:大型语言模型是提示语设计的对象
|
||||
|
||||
## Application Scenarios
|
||||
- 文本生成
|
||||
- 代码编写
|
||||
- 数据分析
|
||||
- 创意写作
|
||||
- 问题解答
|
||||
25
wiki/concepts/文本渲染.md
Normal file
25
wiki/concepts/文本渲染.md
Normal file
@@ -0,0 +1,25 @@
|
||||
---
|
||||
title: "文本渲染"
|
||||
type: concept
|
||||
tags: [ai, image-generation]
|
||||
sources: [google-nano-banana-pro-prompt-guide.md]
|
||||
last_updated: 2025-12-18
|
||||
---
|
||||
|
||||
## Summary
|
||||
Nano Banana Pro 最先进(SOTA)的能力,可渲染清晰易读、风格化的文本,并将复杂信息合成为视觉格式。
|
||||
|
||||
## Best Practices
|
||||
- **压缩**:要求模型将密集文本或 PDF "压缩"成视觉辅助工具
|
||||
- **风格**:明确指定风格,如"精致的编辑风"、"技术图表"或"手绘白板"效果
|
||||
- **引文**:明确指定文本内容,用引号括起来
|
||||
|
||||
## Example Use Cases
|
||||
- 财报信息图
|
||||
- 复古风格信息图
|
||||
- 技术图表(建筑蓝图)
|
||||
- 白板总结(教育类)
|
||||
|
||||
## Connections
|
||||
- [[Nano Banana Pro]] ← enables
|
||||
- [[4K分辨率]] ← combines with
|
||||
37
wiki/concepts/物件描述框架.md
Normal file
37
wiki/concepts/物件描述框架.md
Normal file
@@ -0,0 +1,37 @@
|
||||
---
|
||||
title: "物件描述框架"
|
||||
type: concept
|
||||
tags: [prompt, nano-banana, image-generation]
|
||||
date: 2026-04-18
|
||||
---
|
||||
|
||||
## Definition
|
||||
Google Nano Banana 图像生成模型的物件提示词结构化描述模板。
|
||||
|
||||
## Structure
|
||||
```json
|
||||
{
|
||||
"shot": "",
|
||||
"subject": {
|
||||
"item": "",
|
||||
"materials": "",
|
||||
"details": "",
|
||||
"condition": ""
|
||||
},
|
||||
"environment": "",
|
||||
"lighting": "",
|
||||
"camera": {
|
||||
"focal_length": "",
|
||||
"aperture": "",
|
||||
"angle": ""
|
||||
},
|
||||
"color_grade": "",
|
||||
"style": "",
|
||||
"quality": "",
|
||||
"negatives": ""
|
||||
}
|
||||
```
|
||||
|
||||
## Related Concepts
|
||||
- [[人物描述框架]]
|
||||
- [[Camera Config]]
|
||||
28
wiki/concepts/自定义指令.md
Normal file
28
wiki/concepts/自定义指令.md
Normal file
@@ -0,0 +1,28 @@
|
||||
---
|
||||
title: "自定义指令"
|
||||
type: concept
|
||||
tags: [chatgpt, customization, prompt]
|
||||
date: 2026-04-18
|
||||
---
|
||||
|
||||
## Definition
|
||||
用户为 ChatGPT 设置的行为指导原则,通过自定义指令功能配置 AI 的响应风格、偏好和行为方式。
|
||||
|
||||
## How It Works
|
||||
用户在 ChatGPT 设置中添加自定义指令,包括两部分:
|
||||
1. **行为偏好**:期望 AI 如何响应(如"高度有条理"、"提供详细解释")
|
||||
2. **背景信息**:用户的身份、背景和需求(如专业背景、行业领域)
|
||||
|
||||
## Use Cases
|
||||
- 配置 AI 响应风格(简洁 vs 详细)
|
||||
- 设置专业领域偏好(技术/商业/创意)
|
||||
- 定义信息源偏好(重视论证质量而非来源权威性)
|
||||
- 控制安全/道德讨论的触发阈值
|
||||
|
||||
## Related Entities
|
||||
- [[ChatGPT]]:提供自定义指令功能的 AI 产品
|
||||
- [[OpenAI]]:ChatGPT 的开发商
|
||||
|
||||
## Related Concepts
|
||||
- [[提示语设计]]:更广泛的 AI 提示工程技术
|
||||
- [[个性化配置]]:用户根据自身需求定制 AI 交互方式的过程
|
||||
24
wiki/concepts/角色一致性.md
Normal file
24
wiki/concepts/角色一致性.md
Normal file
@@ -0,0 +1,24 @@
|
||||
---
|
||||
title: "角色一致性"
|
||||
type: concept
|
||||
tags: [ai, image-generation]
|
||||
sources: [google-nano-banana-pro-prompt-guide.md]
|
||||
last_updated: 2025-12-18
|
||||
---
|
||||
|
||||
## Summary
|
||||
Nano Banana Pro 支持最多 14 张参考图像(6 张高保真度),实现"身份锁定"技术,将特定人物或角色放入新场景而不会出现面部扭曲。
|
||||
|
||||
## Implementation
|
||||
- **身份锁定**:明确说明"保持人物的面部特征与图像 1 完全一致"
|
||||
- **表情/动作变化**:描述情绪或姿势的变化,同时保持身份不变
|
||||
- **病毒式构图**:一次性将主体与醒目的图形和文本结合
|
||||
|
||||
## Use Cases
|
||||
- 视频缩略图设计
|
||||
- 品牌资产生成(系列图片)
|
||||
- 故事板创作(多场景保持角色一致)
|
||||
|
||||
## Connections
|
||||
- [[Nano Banana Pro]] ← implements
|
||||
- [[图像修补]] ← related to
|
||||
Reference in New Issue
Block a user