Workspace sync: auto commit 2026-04-23 12:02:11
This commit is contained in:
76
wiki/sources/2025-年-11-个神级-ai-开源平替-github-杀疯了.md
Normal file
76
wiki/sources/2025-年-11-个神级-ai-开源平替-github-杀疯了.md
Normal file
@@ -0,0 +1,76 @@
|
||||
---
|
||||
title: "2025 年 11 个神级 AI 开源平替,GitHub 杀疯了"
|
||||
type: source
|
||||
tags: [AI, 开源平替, LLM, AI生图, AI生视频, AI智能体, AI编码, AI搜索, 知识库]
|
||||
date: 2026-01-01
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[AI/2025 年 11 个神级 AI 开源平替,GitHub 杀疯了。]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:2025 年 GitHub 上各 AI 领域最火的开源平替项目盘点
|
||||
- 问题域:闭源 AI 产品(OpenAI/Gemini/Midjourney/Manus/Perplexity/NotebookLM)价格高昂,用户需要免费开源替代方案
|
||||
- 方法/机制:按 8 大领域(LLM、AI 生图、AI 生视频、AI 智能体、AI Coding、Agent 工作流、AI 搜索、AI 知识库)逐一介绍 GitHub 上 Star 最高、技术最强的开源项目
|
||||
- 结论/价值:国产开源模型(DeepSeek、Qwen、HunyuanVideo)在多个领域已达到或超越国际闭源竞品水平
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- DeepSeek R1 是开源界首个将 o1 级深度推理拉下神坛的破壁者,2025 年春节爆火拉开了中国通过开源策略与国外 AI 巨头差异化竞争的叙事
|
||||
- 通义千问 Qwen 3 是最稳、最全、最能打的开源基座模型,流水的开源模型,铁打的通义千问
|
||||
- Flux 是目前人体解剖学最正确的开源生图模型,出自前 SD 核心团队之手,手指头连指甲盖光泽都有
|
||||
- Stable Diffusion 的 LoRA 和 ControlNet 生态依然最丰富,SD3.5 优化版本更容易在中端显卡上运行
|
||||
- 混元视频 HunyuanVideo 是开源界参数量最大的视频生成模型之一,对中文 Prompt 理解是天花板级别
|
||||
- Manus 是 2025 年 AI Agent 领域的年度现象级产品,定义了 AI Agent 元年,被 Meta 以几十亿美金收购
|
||||
- OpenManus 是 Manus 的开源平替,核心逻辑是规划(Planning)→执行(Execution)→循环反馈,拥有 5 万 Star
|
||||
- Cline 是 Cursor 的最佳开源平替,VS Code 生态中公认最强大的开源自主编程插件
|
||||
- n8n 是功能更强、还能私有部署的开源版 Zapier,拥有恐怖的 16 万 Star
|
||||
- Perplexica 是 Perplexity 的完全开源免费替代,支持本地化 AI 搜索和 SearXNG 搜索源
|
||||
- Claude Code 和 Codex 不是传统 AI 编程工具,而是基于终端的 AI Agent
|
||||
|
||||
## Key Quotes
|
||||
> "2025 年,深度推理让 AI 学会了慢思考,开源内卷把价格打成了白菜,大模型也终于从会聊天的玩具,彻底进化成了能干活的队友。" — 核心主题总结
|
||||
> "流水的开源模型,铁打的通义千问。" — Qwen 3 的稳定性评价
|
||||
> "Manus 是 AI Agent 领域的年度现象级产品,甚至可以说是定义了 AI Agent 元年的里程碑式存在。" — Manus 行业地位
|
||||
|
||||
## Key Concepts
|
||||
- [[AI开源平替]]:以开源项目替代闭源商业 AI 产品,降低使用成本
|
||||
- [[深度推理]]:DeepSeek R1 带来的 o1 级推理能力开源化
|
||||
- [[AI生图]]:Flux、Stable Diffusion 等开源图像生成模型
|
||||
- [[AI生视频]]:HunyuanVideo 等开源视频生成模型
|
||||
- [[AI Agent]]:通用智能体概念,Manus 为领域元年代表
|
||||
- [[AI Coding]]:AI 辅助编程工具生态
|
||||
- [[工作流自动化]]:n8n、Dify 等可视化工作流编排平台
|
||||
- [[AI搜索]]:Perplexica 等开源 AI 搜索引擎
|
||||
|
||||
## Key Entities
|
||||
- [[DeepSeek]]:国产 AI 公司,DeepSeek R1/V3 开源地址维护者
|
||||
- [[Qwen]](通义千问):阿里开源模型 Qwen 3,六边形战士级基座模型
|
||||
- [[Flux]]:前 SD 核心团队出品的开源生图模型
|
||||
- [[Stable Diffusion]]:老牌开源生图模型,LoRA 和 ControlNet 生态最丰富
|
||||
- [[HunyuanVideo]](混元视频):腾讯开源视频生成模型,参数量最大
|
||||
- [[Manus]]:AI Agent 领域现象级产品,2025 年里程碑,被 Meta 收购
|
||||
- [[OpenManus]]:Manus 的开源平替,规划-执行-反馈核心逻辑
|
||||
- [[Cline]]:Cursor 的最佳开源平替,VS Code 最强自主编程插件
|
||||
- [[n8n]]:开源版 Zapier,工作流自动化平台,16 万 Star
|
||||
- [[Dify]]:LLM 应用开发平台,支持知识库和工作流可视化编排
|
||||
- [[Perplexica]]:Perplexity 的开源替代,本地化 AI 搜索引擎
|
||||
- [[Perplexity]]:AI 搜索产品标杆,对比对象
|
||||
- [[Claude Code]]:Anthropic 终端 AI Agent(非传统编程工具)
|
||||
- [[Cursor]]:AI 增强编辑器,重新定义代码编辑器
|
||||
- [[OpenAI]]:国外 AI 巨头,GPT 系列模型提供商
|
||||
- [[Meta]]:收购 Manus 的科技巨头
|
||||
|
||||
## Connections
|
||||
- [[DeepSeek]] ← extends ← [[OpenAI]](DeepSeek R1 对标 OpenAI o1 推理能力)
|
||||
- [[Qwen]] ← extends ← [[OpenAI]](通义千问对标 GPT 系列)
|
||||
- [[Flux]] ← derived_from ← [[Stable Diffusion]](Flux 团队来自 SD 核心团队)
|
||||
- [[HunyuanVideo]] ← extends ← [[Stable Diffusion]](视频版扩散模型)
|
||||
- [[OpenManus]] ← open_source_alternative ← [[Manus]]
|
||||
- [[Cline]] ← open_source_alternative ← [[Cursor]]
|
||||
- [[Perplexica]] ← open_source_alternative ← [[Perplexity]]
|
||||
- [[Dify]] ← extends ← [[n8n]](两者同为工作流平台,Dify 侧重 LLM 应用开发)
|
||||
- [[Claude Code]] ← related_to ← [[AI Agent]](Claude Code 被定义为终端 AI Agent)
|
||||
- [[Manus]] ← triggered ← [[AI Agent 元年]](Manus 诞生定义了 2025 年为 AI Agent 元年)
|
||||
|
||||
## Contradictions
|
||||
- 无明显内容冲突。该来源内容与 Wiki 中 [[DeepSeek]] 实体页描述一致,均强调 DeepSeek-R1 是开源推理模型破壁者。
|
||||
50
wiki/sources/ai-解决方案专家培训课程.md
Normal file
50
wiki/sources/ai-解决方案专家培训课程.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "AI 解决方案专家培训课程"
|
||||
type: source
|
||||
tags: [ai, coze]
|
||||
date: 2026-04-23
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[AI/AI 解决方案专家培训课程.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:Coze(扣子)平台 AI Agent 开发实战培训课程,涵盖国内版(coze.cn)和海外版(coze.com)的多行业 Agent 案例 Demo 合集
|
||||
- 问题域:如何利用 Coze 平台快速构建覆盖金融、医疗、教育、电商、人力资源、泛娱乐、在线客服等多行业的 AI Agent 与 Workflow
|
||||
- 方法/机制:通过分享大量可直接体验的 Coze Bot/Workflow 链接,配合飞书文档说明,让学员快速掌握 Prompt 工程、RAG、Function Call、工作流编排等核心技能
|
||||
- 结论/价值:提供 50+ 可运行的 Agent Demo,是 AI 解决方案专家培训的实操案例库,覆盖从基础能力验证到行业垂直应用的全场景
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- Coze 平台支持国内版(coze.cn)和海外版(coze.com),可满足不同地域用户的 Agent 部署需求
|
||||
- Coze Workflow 功能可将多个 Bot/工具串联,实现复杂业务流程的自动化编排
|
||||
- Coze 平台已积累覆盖 7 大行业(金融、医疗、教育、电商、人力资源、泛娱乐、客服)的 50+ Agent Demo
|
||||
- AI Agent 的 Function Call 能力可调用外部 API(天气、地图、数据库等),实现真实业务场景的自动化
|
||||
|
||||
## Key Quotes
|
||||
> "邀请你加入我的扣子空间 'Prompt & RAG & Function Call'" — Coze 平台培训课程邀请语,说明培训以 Prompt 工程、RAG 和 Function Call 为核心技能
|
||||
|
||||
## Key Concepts
|
||||
- [[Prompt Engineering]]:Coze Bot 的核心技能,通过优化提示词让 AI 理解任务目标并稳定输出,是本课程的基础能力
|
||||
- [[RAG(检索增强生成)]]:Coze 知识库问答的核心技术,将私有文档向量化后供 Agent 检索调用,案例包括知乎财报解读、表格知识库等
|
||||
- [[Function Call]]:Coze Bot 调用外部工具的能力,支持天气查询、故事合成、企业办事等多种真实业务场景
|
||||
- [[Coze Workflow]]:多个 Bot 和插件串联的工作流编排,可实现复杂业务自动化,如滴滴计费规则解答_WorkFlow、骑手招聘助手_WorkFlow
|
||||
- [[AI Agent]]:具备感知→规划→执行→反思能力的 AI 系统,Coze 平台是其快速构建工具
|
||||
|
||||
## Key Entities
|
||||
- [[Coze]]:字节跳动旗下的 AI Agent 开发平台(国内版 coze.cn / 海外版 coze.com),提供 Bot 创建、Workflow 编排、知识库管理、插件系统等完整能力
|
||||
- [[抖音]]:Coze 平台所在字节跳动生态的核心产品,Coze 直播间自动回复助手等服务抖音电商场景
|
||||
- [[SONY]]:零售场景案例合作方,SONY门店店员_Chao 等 Agent 覆盖零售场景的 AI 客服需求
|
||||
- [[滴滴]]:出行场景案例,滴滴计费规则解答等 Agent 覆盖出行行业的 AI 客服需求
|
||||
- [[FaceFusion]]:泛娱乐场景使用的人脸融合 AI 模型,用于霸道总裁等泛娱乐 Agent 的底层技术
|
||||
- [[F5-TTS]]:泛娱乐场景使用的语音合成开源模型,为 AI 生成视频提供配音能力
|
||||
- [[Google Genie 2]]:世界模型,用于泛娱乐场景的 AI 视频生成研究
|
||||
- [[World Labs]]:AI 世界生成平台,Coze 泛娱乐课程中涉及的 AI 视频技术方向
|
||||
|
||||
## Connections
|
||||
- [[Coze]] ← platform ← AI 解决方案专家培训课程(本课程以 Coze 为核心工具)
|
||||
- [[Prompt Engineering]] ← core_skill ← [[RAG(检索增强生成)]] ← combo ← [[Function Call]] ← 三大基础能力 ← Coze 培训课程
|
||||
- [[AI Agent]] ← 应用形态 ← 金融行业 客户分层营销助手 ← 行业案例 ← Coze 培训课程
|
||||
- [[固定镜头短视频制作的AI全流程解析]] ← related ← AI生成视频工作流 ← 泛娱乐案例 ← Coze 培训课程
|
||||
|
||||
## Contradictions
|
||||
- 暂无发现与现有 Wiki 内容的冲突。该课程以 Coze 平台为主,与其他 AI 工具类来源(如 [[Claude Code 调用方法总结]]、[[Ollama 本地 LLM 部署]])属互补关系而非竞争关系。
|
||||
55
wiki/sources/multi-agent-system-reliability.md
Normal file
55
wiki/sources/multi-agent-system-reliability.md
Normal file
@@ -0,0 +1,55 @@
|
||||
---
|
||||
title: "Multi-Agent System Reliability"
|
||||
type: source
|
||||
tags: []
|
||||
date: 2023-01-09
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[AI/Multi-Agent System Reliability.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:4种架构模式提升多智能体系统可靠性——Hierarchy、Consensus、Adversarial Debate、Knock-out
|
||||
- 问题域:LLM固有的不可靠性(幻觉、逻辑谬误、上下文漂移)在多智能体拓扑中会被放大,导致系统整体不可用
|
||||
- 方法/机制:借鉴人类协作系统(军队/公司/国家)的反馈回路与制衡机制,将LLM视为分布式系统中不可靠的组件而非"有感知"的智能体
|
||||
- 结论/价值:从"AI原型"到"企业级AI"的转变关键——停止拟人化LLM,开始用约束、验证、修剪、挑战的方式对待它们
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- 拟人化LLM是谬误——LLM不会真正害怕死亡或渴望金钱,它们只模拟这些特征,因为训练数据中高风险场景往往对应高质量输出
|
||||
- 不应要求模型"小心",而应强制其正确——通过架构约束而非提示词约束
|
||||
- 人类协作系统的4种模式可迁移至多智能体架构:Hierarchy(等级制度)、Consensus(共识)、Adversarial Debate(对抗辩论)、Knock-out(淘汰)
|
||||
- 共识模式:若单个模型20%概率幻觉,3个模型同时幻觉同一谎言的概率仅为0.8%(0.2³)
|
||||
- 多样性是关键——不同模型减少思维同质化风险,Agent之间不应有反馈回路,否则群体思维和从众效应会扭曲结果
|
||||
- 验证器可使用确定性代码(单元测试、JSON schema验证)或LLM本身;需要快速验证输出的场景(如Tree of Thoughts),Eval是必要基础设施
|
||||
|
||||
## Key Quotes
|
||||
> "Stop treating LLMs like magic chatbots. Start treating them like unreliable components in a distributed system." — 核心论点,从AI原型到企业级AI的范式转变
|
||||
> "We don't need AI that 'cares.' We need AI that is constrained, verified, pruned, and challenged." — 放弃拟人化,拥抱工程约束
|
||||
> "If a model hallucinates 20% of the time, the chance of 3 models hallucinating the exact same lie is just 0.8% (0.2^3=0.008)." — 共识机制的概率论基础
|
||||
> "Don't anthropomorphize LLMs!" — 全文核心警告
|
||||
|
||||
## Key Concepts
|
||||
- [[Hierarchy-Agent-Pattern]]:主管模型(Planner)制定计划→分解任务→分配给Worker→Validator验证结果;核心是依赖图强制协作而非靠模型"意愿"
|
||||
- [[Consensus-Voting-Pattern]]:N个LLM并行执行相同任务,取多数票;降低幻觉概率但成本高;Agent之间需盲测无反馈回路
|
||||
- [[Adversarial-Debate-Pattern]]:Generator提出方案→Critic攻击反驳→Judge裁判;用外部批评者和评判者模拟人类的"恐惧"动机;可加Watchdog打破无限辩论循环
|
||||
- [[Knock-out-Pattern]]:N个Agent竞争,最差者淘汰;用"适者生存"替代"死亡恐惧";源自遗传算法,需快速验证机制(Eval)
|
||||
- [[Tree-of-Thoughts]]:Knock-out模式的进阶,通过验证器决定哪些Agent被淘汰;可结合赢家特征生成新Agent
|
||||
- [[Genetic-Algorithm]]:Tree of Thoughts的ML理论根源——遗传表示+适应度函数
|
||||
- [[Reliability-Engineering]]:将LLM视为不可靠组件的工程哲学——约束、验证、修剪、挑战
|
||||
|
||||
## Key Entities
|
||||
- [[Alex Ewerlöf]]:资深Staff Engineer(27年经验),KTH系统工程硕士,专注可靠性工程和弹性架构,2023年起专攻LLM;本文作者
|
||||
|
||||
## Connections
|
||||
- [[AI-Agent]] ← relates_to ← [[Multi-Agent-System-Reliability]](多智能体架构是AI Agent的高级形态)
|
||||
- [[Recursion Self-Optimization]] ← 与本文 Tree of Thoughts 模式相关(自引用结构)
|
||||
- [[Designing for Agentic AI]] ← 互补 ← [[Multi-Agent-System-Reliability]](用户体验设计 vs 可靠性架构)
|
||||
- [[Multi-Agent-Team]] ← 相关 ← [[Multi-Agent-System-Reliability]](具体实现案例 vs 架构模式理论)
|
||||
- [[Content-Factory]] ← 可能应用 ← [[Hierarchy-Agent-Pattern]](Research→Writing→Thumbnail Agent链)
|
||||
- [[Dynamic-Dashboard]] ← 可能应用 ← [[Consensus-Voting-Pattern]](多数据源并行验证)
|
||||
|
||||
## Contradictions
|
||||
- 与某些"AI人格化"观点冲突:
|
||||
- 冲突点:AI是否应被赋予"情感"或"动机"
|
||||
- 当前观点:LLM无真正恐惧/欲望,不应拟人化;威胁/激励提示仅通过训练数据模式匹配起效
|
||||
- 对方观点:通过"$100奖励""断电威胁"等提示可真正改变AI行为质量
|
||||
55
wiki/sources/nano-banana-pro-prompting-guide-strategies-1.md
Normal file
55
wiki/sources/nano-banana-pro-prompting-guide-strategies-1.md
Normal file
@@ -0,0 +1,55 @@
|
||||
---
|
||||
title: "Nano Banana Pro 提示词指南与策略(上篇)"
|
||||
type: source
|
||||
tags: [ai, gemini, nanobanana, prompt-engineering, google-ai-studio, image-generation]
|
||||
date: 2025-11-28
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[AI/Nano-Banana Pro Prompting Guide & Strategies 1.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:Google Nano Banana Pro 图像生成模型的完整提示词工程指南,涵盖从基础规则到专业级资产生产的全链路实战策略
|
||||
- 问题域:如何有效使用 Nano Banana Pro 生成功能性专业资产——从信息图、病毒缩略图、到 4K 纹理和故事板
|
||||
- 方法/机制:停止标签堆砌,像创意总监一样思考;利用自然语言对话式编辑;支持 14 张参考图像实现身份锁定;默认生成思考图像(不收费)后输出最终结果;集成 Google Search 实现实时数据锚定
|
||||
- 结论/价值:将 AI 图像生成从"趣味性玩具"升级为"功能性专业生产工具"的核心方法论
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- Nano Banana Pro 是"思考型"模型,能理解意图、物理规则和构图美学,而非简单的关键词匹配
|
||||
- 模型对对话式编辑极为友好——图像 80% 正确时应编辑而非重新生成
|
||||
- 支持最多 14 张参考图像(6 张高保真),实现人物/角色"身份锁定"
|
||||
- 默认生成思考图像(不收费)进行构图推演后再输出最终结果
|
||||
- 原生支持 1K 到 4K 高分辨率输出
|
||||
- 集成 Google Search 可基于实时数据生成图像,减少幻觉
|
||||
|
||||
## Key Quotes
|
||||
> "Stop using 'tag soups' (e.g., `dog, park, 4k, realistic`) and start acting like a Creative Director." — Nano Banana Pro 核心理念
|
||||
> "If an image is 80% correct, do not generate a new one from scratch. Instead, simply ask for the specific change you need." — 对话式编辑原则
|
||||
> "Because the model 'thinks,' giving it context helps it make logical artistic decisions." — 上下文驱动生成
|
||||
> "The identity of the woman and man and their attire must stay consistent throughout" — 故事板场景下的一致性要求
|
||||
|
||||
## Key Concepts
|
||||
- [[身份锁定(Identity Locking)]]:通过参考图像保持人物面部特征、服饰、角色在整个序列中完全一致的技术
|
||||
- [[对话式编辑(Conversational Editing)]]:不重新生成而是通过自然语言指令对现有图像进行局部修改的工作流
|
||||
- [[思考模式(Thinking Mode)]]:Nano Banana Pro 默认生成中间思考图像(不收费)以推演构图,然后再输出最终结果
|
||||
- [[信息锚定(Grounding with Search)]]:集成 Google Search 基于实时数据(股票、天气、新闻)生成可视化图像
|
||||
- [[专业资产生产(Professional Asset Production)]]:从"fun"趣味生成到"functional"功能性专业资产的能力跃迁
|
||||
- [[创意总监式提示(Creative-Director Prompting)]]:使用完整自然语言句子而非标签堆砌,像对人类艺术家简报一样描述需求
|
||||
|
||||
## Key Entities
|
||||
- [[shenwei]]:本文作者,发布于 dev.to 的 Google AI 教程作者
|
||||
- [[Google AI Studio]]:Nano Banana Pro 的官方使用平台,提供 Prompts 界面和参数配置
|
||||
- [[Google Colab]]:与 AI Studio 配合使用的代码笔记本环境,提供代码示例
|
||||
- [[AI Studio Build]]:AI Studio 的 App 构建功能,可将最佳提示词快速转化为可分享应用
|
||||
|
||||
## Connections
|
||||
- [[Nano Banana 提示词框架]] ← extends ← [[nano-banana-pro-prompting-guide-strategies-1]]
|
||||
- [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]] ← extends ← [[nano-banana-pro-prompting-guide-strategies-1]]
|
||||
- [[Nano Banana Pro 提示词指南]] ← is_part_of ← [[nano-banana-pro-prompting-guide-strategies-1]]
|
||||
|
||||
## Contradictions
|
||||
- 与 [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]] 存在范围重叠:
|
||||
- 冲突点:两者均介绍 Nano Banana 的提示词方法,但本篇侧重 Pro 版的高级能力,彼篇侧重 Nano Banana 2 的综合指南
|
||||
- 当前观点:本篇强调 Nano Banana Pro 是 Pro 版专属的 SOTA 文本渲染和身份锁定能力
|
||||
- 对方观点:彼篇将 Nano Banana 2 作为完整体系综合介绍,包含更多版本对比内容
|
||||
- 结论:两者互补——框架基础 + Pro 高级指南 + Nano Banana 2 综合版,构成完整的 Nano Banana 知识体系
|
||||
68
wiki/sources/rag从入门到精通系列1-基础rag.md
Normal file
68
wiki/sources/rag从入门到精通系列1-基础rag.md
Normal file
@@ -0,0 +1,68 @@
|
||||
---
|
||||
title: "RAG从入门到精通系列1:基础RAG"
|
||||
type: source
|
||||
tags: [rag, llm, 向量检索, 知识库, langchain]
|
||||
date: 2025-01-16
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[AI/RAG从入门到精通系列1:基础RAG.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:RAG(检索增强生成)基础原理与实战入门,从 Indexing(索引)、Retrieval(检索)到 Generation(生成)的完整流程。
|
||||
- 问题域:LLM 无法使用最新数据和私有数据的根本问题,以及如何通过 RAG 打通 LLM 与外部知识库的连接。
|
||||
- 方法/机制:三大核心阶段——(1) Indexing:将外部文档加载、切分、Embedding 向量化后存入向量数据库;(2) Retrieval:用户问题 Embedding 化后通过向量相似度检索 Top-k 相关文档块;(3) Generation:将问题 + 检索结果输入 LLM 生成带事实依据的答案。实战工具链:Qwen(LLM)+ BAAI(Embedding)+ LangChain(编排)+ Qdrant(向量数据库)。
|
||||
- 结论/价值:RAG 是让 LLM 拥有外部知识的标准范式,LangChain 和 LlamaIndex 等框架将三阶段流程封装为 Chain,大幅降低开发门槛;LangSmith 可视化整个 RAG 管道便于调试。
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- RAG 将 LLM 与外部数据源(私有数据/最新数据)连接,使 LLM 能够使用非训练知识生成答案。
|
||||
- Indexing 阶段通过 Embedding Model 将文本转为固定长度的语义向量,以满足向量相似度检索的需求。
|
||||
- 由于 Embedding Model 的 Context Window 有限(512~8192 token),需将外部文档切分成满足窗口大小的 Split(文档块)。
|
||||
- Retrieval 阶段根据用户问题的语义向量,在向量数据库中按相似度(余弦相似度等)找出 Top-k 个最相关的文档块。
|
||||
- Generation 阶段将问题与检索到的文档块通过 PromptTemplate 组合为 Prompt,输入 LLM 生成有事实依据的最终答案。
|
||||
- LangChain 和 LlamaIndex 将 Indexing-Retrieval-Generation 三阶段封装为 Chain,简化 RAG 应用开发。
|
||||
- LangSmith 提供 RAG 管道的全链路可视化监控和调试能力。
|
||||
|
||||
## Key Quotes
|
||||
> "RAG(Retrieval Augmented Generation,检索增强生成)是一种将 LLM 与外部数据源(例如私有数据或最新数据)连接的通用方法。它允许 LLM 使用外部数据来生成其输出。" — RAG 的定义与价值
|
||||
> "Embedding Model 的 Context Window 有限,我们不能直接把整篇文档丢进去,所以要将原始文档拆分成一个个文档块。" — 文档切分的必要性
|
||||
> "看起来很复杂,但这就是 LangChain 和 LlamaIndex 这类框架存在的意义。" — 框架的价值定位
|
||||
|
||||
## Key Concepts
|
||||
- [[RAG]]:检索增强生成,将 LLM 链接外部知识库的核心技术架构
|
||||
- [[Indexing]]:索引阶段,将外部文档加载、切分、向量化后存入向量数据库
|
||||
- [[Retrieval]]:检索阶段,通过向量相似度从数据库中检索与问题相关的文档块
|
||||
- [[Generation]]:生成阶段,将问题+检索结果输入 LLM 生成答案
|
||||
- [[Embedding]]:将文本转为固定长度语义向量的技术,是向量检索的基础
|
||||
- [[Vector Store]](向量数据库):存储 Embedding Vector 并实现相似度比较的数据库系统,如 Qdrant
|
||||
- [[Split]](文档块):将长文档切分后满足 Embedding Model Context Window 的文本片段
|
||||
- [[Context Window]]:模型一次性处理的最大 token 数量,Embedding Model 通常为 512~8192 token
|
||||
- [[PromptTemplate]]:将问题与上下文组装为 LLM 输入 Prompt 的模板技术
|
||||
- [[Chain]](链):LangChain 中将多个步骤串联执行的抽象,RAG Chain 串联 Retrieval 与 Generation
|
||||
- [[Token]]:模型处理文本的基本单位,英文约 3~4 字母/token,中文约 1 汉字/token
|
||||
|
||||
## Key Entities
|
||||
- [[LangChain]]:Python/LLM 应用开发框架,提供文档加载器、Embedding、Vector Store、Chain、RAG 原语
|
||||
- [[Qwen]]:阿里通义千问系列 LLM,本教程中用作 Generation 阶段的 LLM
|
||||
- [[BAAI]](BGE Embedding):开源 Embedding Model 系列,将文本转为语义向量
|
||||
- [[Qdrant]]:Rust 编写的开源向量数据库,存储 Embedding Vector 并提供相似度检索
|
||||
- [[LlamaIndex]]:另一主流 LLM 数据框架(与 LangChain 并列),专注知识增强
|
||||
- [[LangSmith]]:LangChain 官方平台,用于构建、监控和评估生产级 LLM 应用,支持 RAG 管道可视化
|
||||
- [[PyTorch研习社]]:文章来源微信公众号
|
||||
|
||||
## Connections
|
||||
- [[RAG]] ← 基础理论 ← [[rag从入门到精通系列1-基础rag]]
|
||||
- [[RAG]] ← 依赖 ← [[Embedding]]
|
||||
- [[RAG]] ← 依赖 ← [[Vector Store]]
|
||||
- [[RAG]] ← 工具链 ← [[LangChain]]
|
||||
- [[RAG]] ← 工具链 ← [[LlamaIndex]]
|
||||
- [[Indexing]] ← 依赖 ← [[Embedding]]
|
||||
- [[Retrieval]] ← 依赖 ← [[Vector Store]]
|
||||
- [[Generation]] ← 依赖 ← [[PromptTemplate]]
|
||||
- [[Indexing]] ← 依赖 ← [[LangChain]](文档加载器/Splitter/Embedding/Vector Store)
|
||||
- [[Retrieval]] ← 依赖 ← [[LangChain]](Retriever)
|
||||
- [[Generation]] ← 依赖 ← [[LangChain]](Chain/PromptTemplate)
|
||||
- [[rag从入门到精通系列1-基础rag]] ← 系列第一篇 → 其他 RAG 系列文章(待补充)
|
||||
|
||||
## Contradictions
|
||||
- 与其他 RAG 进阶技术存在优化方向上的差异:本文为基础 RAG(Naive RAG),采用直接向量检索 + 简单拼接 Prompt 的朴素方案。与 Advanced RAG(包含 Query Rewrite、Step-back Prompt、HyDE 等查询优化技术)和 RAG Fusion(多路召回 + RRF 重排)等进阶方案相比,基础 RAG 在检索质量和上下文利用上存在局限。当前 Wiki 中暂无 Advanced RAG 或 RAG Fusion 的专门页面,此冲突待后续补充进阶内容后更新。
|
||||
49
wiki/sources/全网最全-nano-banana-2-使用指南-2025年12月更新-1.md
Normal file
49
wiki/sources/全网最全-nano-banana-2-使用指南-2025年12月更新-1.md
Normal file
@@ -0,0 +1,49 @@
|
||||
---
|
||||
title: "全网最全!Nano Banana 2 使用指南(2025年12月更新)"
|
||||
type: source
|
||||
tags: [AI图像生成, Gemini, NanoBanana, DeepSider]
|
||||
date: 2025-12-01
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[AI/全网最全!Nano Banana 2 使用指南(2025年12月更新) 1.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:Google Nano Banana 2(Gemini 3 Pro Image)AI 绘图模型的国内使用指南
|
||||
- 问题域:国内用户如何便捷访问和使用 Google Gemini 3 系列图像生成模型
|
||||
- 方法/机制:通过 DeepSider 浏览器插件(Edge 扩展)直接访问 Nano Banana 2,无需特殊网络和海外账户
|
||||
- 结论/价值:DeepSider 是国内用户访问 Gemini 3 Pro/Nano Banana 2 等多款 AI 大模型的最便捷渠道之一
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- Nano Banana 2 是 Google 发布的推理型图像生成模型(Gemini 3 Pro Image),正式代号为 Gemini 3 Pro Image
|
||||
- Nano Banana 2 是一款推理模型,在生成图像前会进行内部推理,直接碾压一众 AI 绘图模型
|
||||
- Nano Banana 2 具备更高的图像质量、更高的准确性、更好的多语言长文本渲染能力
|
||||
- Nano Banana 2 可输出 1K、2K、4K 分辨率图像,最多可将 14 张输入图像组合为 1 张输出图像
|
||||
- DeepSider 是一款浏览器插件,安装后国内可直接访问 Nano Banana 2 / Gemini 3.0 / GPT-5.1 等数十款 AI 大模型
|
||||
- DeepSider 专为中文用户设计,无需特殊网络,无需海外账户
|
||||
|
||||
## Key Quotes
|
||||
> "原本以为 Nano Banana 已经够强,没想到 Nano2 的实测效果比想象中还要惊艳,直接碾压一众 AI 绘图模型!堪称火力全开!" — 文章导语
|
||||
|
||||
> "它(Nano Banana 2)就能自动进行检索和思考,填补上所有的细节。" — Nano Banana 2 自动推理描述
|
||||
|
||||
> "DeepSider 一个插件就能体验多款热门 AI 大模型,对国内用户来说更流畅、更方便。" — DeepSider 价值总结
|
||||
|
||||
## Key Concepts
|
||||
- [[推理型图像生成模型]]:Nano Banana 2 在生成图像前会进行内部推理,自动补完用户提示词的深层次需求
|
||||
- [[多语言长文本渲染]]:Nano Banana 2 的核心能力之一,能够在图像中准确渲染复杂的中文界面和长文本
|
||||
- [[图像推理模型]]:与传统图像模型不同,Nano Banana 2 在生成图像前进行内部推理,而非简单的关键词匹配
|
||||
|
||||
## Key Entities
|
||||
- [[Nano Banana 2]]:Google 发布的 AI 图像生成模型(Gemini 3 Pro Image),代号 Gemini 3 Pro Image,具备推理能力,支持 1K/2K/4K 输出和 14 张图像组合
|
||||
- [[DeepSider]]:Edge 浏览器插件(deepsider.ai),国内用户访问 Gemini 3 / Nano Banana 2 的便捷渠道,支持 GPT5/GPT4.1/Claude/Gemini 2.5 Pro/Grok/Nano Banana/Sora 2 等数十款 AI 模型
|
||||
- [[Gemini 3 Pro]]:Google Gemini 3 系列中的图像生成模型,即 Nano Banana 2 的正式代号
|
||||
|
||||
## Connections
|
||||
- [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]] ← 使用 ← [[DeepSider]]
|
||||
- [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]] ← 介绍 ← [[Nano Banana 2]]
|
||||
- [[Nano Banana Pro 提示词指南]] ← 相关 ← [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]](同一系列)
|
||||
- [[Nano Banana 提示词框架]] ← 相关 ← [[全网最全-nano-banana-2-使用指南-2025年12月更新-1]](同一系列)
|
||||
|
||||
## Contradictions
|
||||
- 暂无发现与其他 Wiki 页面的明显冲突
|
||||
63
wiki/sources/固定镜头短视频制作的ai全流程解析.md
Normal file
63
wiki/sources/固定镜头短视频制作的ai全流程解析.md
Normal file
@@ -0,0 +1,63 @@
|
||||
---
|
||||
title: "固定镜头短视频制作的AI全流程解析"
|
||||
type: source
|
||||
tags: ["AI视频生成", "短视频制作", "家装视频", "AI工具链", "视频剪辑"]
|
||||
date: 2026-04-23
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[raw/AI/固定镜头短视频制作的AI全流程解析.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:利用 AI 技术快速制作高播放量固定机位家装类短视频的全流程方法论
|
||||
- 问题域:传统视频制作周期长、镜头语言复杂、设备要求高,难以规模化复制的痛点
|
||||
- 方法/机制:固定机位 + 内容连续变化 + 时间压缩三大核心原理;分镜拆解(Google AI Studio)→ 九宫格图像生成(Midjourney/Nano Banana)→ 首尾针动画(海螺AI/KAI)→ 快节奏剪辑(剪映)→ 声音设计
|
||||
- 结论/价值:AI 介入后 10 分钟内可完成成片,适用于所有固定机位且状态变化明显的短视频类型
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- 固定机位是视频画面统一和连贯的基础,减少复杂摄像设备需求
|
||||
- 九宫格一次性生成 3×3 共九个画面,保证机位与角度不变,画面一致性强
|
||||
- 首尾针动画通过上传首针和尾针图,AI 自动补齐中间变化,实现自然动画效果
|
||||
- 快节奏剪辑统一加速 2-4 倍、避免复杂转场、画面轻微裁边即可获得干净效果
|
||||
- 声音设计(施工音效 + 节奏感强的 BGM + 精准卡点)决定观众观看体验
|
||||
|
||||
## Key Quotes
|
||||
> "固定机位、内容连续变化、时间压缩三个特点使视频非常适合用 AI 技术生成" — 视频核心原理
|
||||
> "一次性用三乘三九宫格图生成九个分镜画面,机位和角度不变,细节只表现施工进度的变化" — 九宫格法优势
|
||||
> "首尾针动画本身提供平滑过渡,硬切清晰干净,避免视觉干扰" — 快节奏剪辑原则
|
||||
> "即使不完整也能增强真实感" — 施工音效的价值
|
||||
|
||||
## Key Concepts
|
||||
- [[固定机位]]:摄像机位置固定不变,是视频画面统一和连贯的基础,使 AI 能稳定处理时间推移
|
||||
- [[内容连续变化]]:视频主体信息随时间持续发生明确阶段性变化,适合 AI 生成中间过渡帧
|
||||
- [[时间压缩]]:将长时间拍摄过程在视频中浓缩表现的手法,如装修从毛坯到精装修的完整过程
|
||||
- [[分镜拆解]]:将视频内容拆分成多个画面阶段描述,Google AI Studio 可自动分析视频并生成九宫格分镜
|
||||
- [[九宫格法]]:同时生成 3×3 共九个画面,保证机位与角度不变,画面一致性强,避免逐帧独立生成导致光影错乱
|
||||
- [[首尾针动画]]:通过上传首针图和尾针图,AI 自动补齐中间变化,产生连贯动画的技术
|
||||
- [[快节奏剪辑]]:使用加速播放(2-4倍)和硬切换手法,强化节奏感与流畅度
|
||||
- [[卡点]]:画面变化与音乐节奏巧妙同步,提高观看体验
|
||||
- [[Nano Banana]]:Google AI Studio 的图像生成模型,用于生成高质量分镜画面
|
||||
- [[KAI]]:AI 视频生成工具,支持首尾针动画生成短视频片段
|
||||
|
||||
## Key Entities
|
||||
- [[Midjourney]]:AI 图像生成工具(设计师类),用于将分镜描述转换为一致图像
|
||||
- [[Nano Banana]]:Google 图像生成模型(设计师类),用于高质量分镜画面生成
|
||||
- [[海螺AI]](MiniMax):动效类 AI 工具,支持首尾针动画生成
|
||||
- [[KAI]]:动效类 AI 工具,通过 AI Video API 生成阶段视频片段
|
||||
- [[Google AI Studio]]:大脑类 AI 工具,负责将视频逻辑转化为 AI 能识别的分镜语言
|
||||
- [[剪映]]:字节跳动视频剪辑工具,用于最终视频合成、加速和转场处理
|
||||
|
||||
## Connections
|
||||
- [[Google AI Studio]] ← generates storyboards → [[九宫格法]]
|
||||
- [[Midjourney]] / [[Nano Banana]] ← generates images → [[首尾针动画]]
|
||||
- [[海螺AI]] / [[KAI]] ← generates video clips → [[快节奏剪辑]]
|
||||
- [[快节奏剪辑]] ← composited in → [[剪映]]
|
||||
- [[固定机位]] ← enables → [[内容连续变化]]
|
||||
- [[内容连续变化]] + [[时间压缩]] ← forms the core principle → [[固定镜头短视频]]
|
||||
|
||||
## Contradictions
|
||||
- 与传统视频制作理念冲突:
|
||||
- 冲突点:是否需要复杂镜头移动和转场效果
|
||||
- 当前观点(本文):固定机位 + 硬切 + 无复杂转场反而更干净高效
|
||||
- 对方观点:传统视频制作强调镜头语言丰富性和视觉转场多样性
|
||||
- 评估:本文专注于特定类型(固定机位状态变化视频),不适用于需要复杂镜头语言的其他视频类型
|
||||
@@ -0,0 +1,75 @@
|
||||
---
|
||||
title: "大模型相关术语和框架总结|LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏"
|
||||
type: source
|
||||
tags: [llm, mcp, prompt, rag, token, vllm, embedding, langchain]
|
||||
sources: []
|
||||
last_updated: 2026-04-25
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[AI/大模型相关术语和框架总结|LLM、MCP、Prompt、RAG、vLLM、Token、数据蒸馏.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:大模型(LLM)生态核心术语与框架的系统性梳理,面向初学者
|
||||
- 问题域:大模型是什么、如何与大模型交互(Prompt)、如何扩展大模型能力(MCP/Agent)、如何解决幻觉问题(RAG)、如何高效部署推理(vLLM)、如何用小模型学习大模型能力(蒸馏)
|
||||
- 方法/机制:
|
||||
- Prompt:通过自然语言指令向 LLM 输入任务描述
|
||||
- MCP:标准化协议,连接 LLM 与外部工具/数据源
|
||||
- Agent:在 MCP 框架下,LLM 规划调用工具并执行多步任务
|
||||
- RAG:检索外部知识注入 LLM 上下文,减少幻觉
|
||||
- vLLM:PagedAttention + 连续批处理实现高效 GPU 利用率
|
||||
- Embedding:将文本词转换为浮点向量,通过距离计算语义相似性
|
||||
- 数据蒸馏:用大模型生成精简训练数据,使小模型逼近大模型效果
|
||||
- 结论/价值:本文是大模型入门术语速查手册,将 LLM/MCP/Agent/RAG/Embedding/LangChain/vLLM/Token/蒸馏 等核心概念用通俗语言串联,适合快速建立 AI 技术认知框架
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- LLM 参数规模 ≥1B(十亿参数)是大模型行业门槛;GPT-2 为 1.5B,GPT-3 为 175B
|
||||
- MCP 是 LLM 连接外部工具和数据的标准化协议,解决不同模型/工具集成的碎片化问题
|
||||
- 大模型本身只返回方法步骤,不执行实际操作;需要 MCP 框架才能真正触发工具调用
|
||||
- LLM + MCP + 工具 = AI Agent,Agent 能真正执行发邮件等外部操作
|
||||
- RAG 通过检索外部知识注入,将 LLM 回答正确率从约 60% 提升至约 90%
|
||||
- Embedding 通过将词转为浮点向量,用向量距离衡量语义相似性,解决一词多义问题
|
||||
- vLLM 通过 PagedAttention(分块 KV Cache)和连续批处理最大化 GPU 利用率,降低推理成本
|
||||
- Token 是 LLM 的基本输入单元:英文约 0.3 token/字符,中文约 0.6 token/字符
|
||||
- 数据蒸馏利用高性能大模型生成精简数据,使小模型能以更低成本逼近大模型效果
|
||||
|
||||
## Key Quotes
|
||||
> "大模型是不会自己去调用外部数据源或者工具的,大模型只会告诉我们需要调用哪些工具,而我们需要自己去实现工具的调用。" — MCP 与 LLM 的能力边界说明
|
||||
|
||||
> "LLM 在考试的时候面对陌生的领域,只会写一个解字(因为LLM复习也只是局限于特定的数据集),然后就准备放飞自我了,而此时RAG给了亿些提示,让LLM懂了开始往这个提示的方向做,最终考试的正确率从60%到了90%!" — RAG 减少幻觉的可视化类比
|
||||
|
||||
> "一百和两百的距离近,而一百离一千远,所以一百相比于一千,更接近两百这个语意。" — Embedding 向量距离与语义相似性的关系
|
||||
|
||||
> "KV Cache 把这些历史 K/V 保存下来,后续步不用重复计算。但 KV Cache 随上下文长度、层数、头数、维度线性增长,也变成推理中的最大显存开销之一。" — vLLM 优化 KV Cache 的动机
|
||||
|
||||
## Key Concepts
|
||||
- [[Large Language Model]]:大语言模型,以 ≥1B 参数为行业门槛的深度神经网络语言模型,通过大规模预训练获得语言理解和生成能力
|
||||
- [[Prompt]]:提示词,用户向 LLM 输入的自然语言指令,引导模型产出特定类型的响应
|
||||
- [[Model Context Protocol]](MCP):开放协议,为 LLM 应用提供标准化接口,使其能够连接外部数据源和工具进行交互
|
||||
- [[AI Agent]]:智能体,LLM + MCP 工具框架的融合体,能够感知环境、规划步骤、调用工具并执行多步任务(如发邮件)
|
||||
- [[Retrieval-Augmented Generation]](RAG):检索增强生成,通过从外部知识库检索相关内容注入 LLM 上下文,减少幻觉、提升回答准确率
|
||||
- [[Embedding]]:向量化,将文本转换为浮点向量,通过向量距离计算语义相似性,解决一词多义问题
|
||||
- [[LangChain]]:快速实现 AI Agent 的开发框架,提供标准化接口用于连接不同 LLM 和工具/数据源
|
||||
- [[vLLM]]:开源 LLM 推理框架,通过 PagedAttention(分块 KV Cache)和连续批处理优化 GPU 内存利用率,实现高吞吐、低成本推理
|
||||
- [[Token]]:LLM 的基本输入单元,约等于一个单词或短语;英文约 0.3 token/字符,中文约 0.6 token/字符
|
||||
- [[Data Distillation]](数据蒸馏):利用大模型生成精简训练数据,使小模型能够从中学习并逼近大模型效果的技术
|
||||
- [[KV Cache]]:Transformer 解码过程中保存历史 Key/Value 向量的缓存机制,避免重复计算,但带来显存瓶颈
|
||||
- [[PagedAttention]]:vLLM 提出的注意力机制,将 KV Cache 分块管理(类操作系统页表),避免显存碎片化
|
||||
- [[Continuous Batching]](连续批处理):在每个解码步骤动态组装活跃请求为批次,无需等待整批结束即可插入新请求,提高 GPU 利用率
|
||||
|
||||
## Key Entities
|
||||
- [[shenwei]]:本文作者,公众号 shenwei 投稿
|
||||
- [[OpenAI]]:GPT 系列模型的开发公司(GPT-2/GPT-3 参数量引用来源)
|
||||
- [[vLLM]]:开源社区维护的 LLM 推理加速框架,提供 PagedAttention 实现
|
||||
|
||||
## Connections
|
||||
- [[Large Language Model]] ← is_the_core_of ← [[AI Agent]]
|
||||
- [[Model Context Protocol]] ← enables ← [[AI Agent]]
|
||||
- [[AI Agent]] ← requires ← [[Prompt]]
|
||||
- [[Retrieval-Augmented Generation]] ← solves_problem_of ← [[Hallucination]]
|
||||
- [[vLLM]] ← uses ← [[PagedAttention]]
|
||||
- [[vLLM]] ← uses ← [[Continuous Batching]]
|
||||
- [[Data Distillation]] ← transfers_knowledge_from ← [[Large Language Model]]
|
||||
|
||||
## Contradictions
|
||||
- 与 [[llms-rag-ai-agent-三个到底什么区别]] 互补而非冲突:本文侧重入门术语科普式解释(通俗语言 + 可视化类比),后者侧重三层架构的系统性梳理(LLM 思考层 / RAG 认知层 / Agent 执行层),两者结合可形成从入门到深入的完整认知路径。
|
||||
52
wiki/sources/我用-gemini-3-一口气做了-10-个应用-附教程.md
Normal file
52
wiki/sources/我用-gemini-3-一口气做了-10-个应用-附教程.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "我用 Gemini 3 一口气做了 10 个应用,附教程"
|
||||
type: source
|
||||
tags: [AI应用, Gemini-3, 提示词工程, 前端可视化, Vibe-Coding]
|
||||
date: 2025-11-24
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[AI/我用 Gemini 3 一口气做了 10 个应用,附教程]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:使用 Google Gemini 3 模型,通过简单的对话式提示词,配合前端 SVG/HTML 可视化,在极短时间内构建 10 个实用的 AI 应用(冷知识卡片、配色卡片、电影海报、绘画思维导图等)。
|
||||
- 问题域:如何快速将 AI 的文字生成能力转化为可直接使用的可视化产品。
|
||||
- 方法/机制:作者提出三步方法论——①限定垂直输入场景(如诗词/小说/电影)→ ②用提示词 + MCP 约束模型结构化输出 → ③用前端代码(SVG/HTML)作为输出容器。核心机制是让 AI 先输出 SVG 语言,再由前端渲染成精美卡片/海报/导图。
|
||||
- 结论/价值:Gemini 3 的多模态能力和结构化输出使得"两句话做一个应用"成为现实;前端 SVG 可视化是 AI 生成内容落地的关键桥梁。
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- Gemini 3 模型通过提示词约束可实现结构化输出,直接生成 SVG 代码。
|
||||
- 冷知识卡片应用中,蝴蝶生命周期 SVG 可视化展示了信息设计的潜力。
|
||||
- 配色卡片通过提示词引导,可自动生成莫奈等艺术家风格的主题色板。
|
||||
- 电影海报应用中,Gemini 能根据电影名生成海报图、简介、上映时间和导演信息。
|
||||
- 绘画思维导图应用解决了"有关键词但不知道怎么写提示词"的核心痛点。
|
||||
- 整个方法论的核心是:垂直场景 + 结构化约束 + 前端容器,三步缺一不可。
|
||||
|
||||
## Key Quotes
|
||||
> "制作原理,就是让 AI 输出 SVG 的语言,可视化展示整个信息。" — 空格,解释冷知识卡片的技术原理
|
||||
> "这些都是靠提示词设计的。约束好大模型结构化输出信息。" — 空格,总结 Gemini 应用开发的核心技巧
|
||||
> "如果你感兴趣的话,我下期再来详细分享一下做这些应用的具体对话内容,我是怎么把这些应用两句对话就实现出来的。" — 空格,预告后续内容
|
||||
|
||||
## Key Concepts
|
||||
- [[SVG可视化]]:通过 AI 生成 SVG 代码实现信息可视化,是 Gemini 输出落地的核心技术路径
|
||||
- [[结构化输出]]:通过提示词约束模型输出格式,实现 JSON/结构化数据直接生成
|
||||
- [[Vibe-Coding]]:以对话驱动 + AI 结对执行的开发范式,与本文三步方法论高度契合
|
||||
- [[AI应用开发]]:从 AI 模型输出到可交付产品的完整链路实践
|
||||
|
||||
## Key Entities
|
||||
- [[Gemini-3]]:Google 最新多模态大模型,支持文本、图像混合输入输出,支持 SVG 结构化生成
|
||||
- [[Google-AI-Studio]]:Google AI 开发平台(ai.studio),文中提供多个应用体验地址
|
||||
|
||||
## Connections
|
||||
- [[Vibe-Coding]] ← 方法论相似 ← 本文三步法(场景→约束→容器)
|
||||
- [[Nano-Banana-2]] ← 同一作者风格 ← 同为 AI 可视化应用类文章
|
||||
- [[SVG可视化]] ← 核心技术 ← 连接多个 AI 应用类来源
|
||||
|
||||
## Contradictions
|
||||
- 暂无冲突内容。
|
||||
|
||||
## 应用示例(原文)
|
||||
- **冷知识卡片**:蝴蝶生命周期 SVG 可视化,可下载为 PNG,体验地址:https://gemini.google.com/share/26884961f77a
|
||||
- **配色卡片**:输入"莫奈"获取主题色和命名色卡,适合设计场景
|
||||
- **电影海报**:输入"星际穿越"生成黑白风格海报、简介、上映时间、导演
|
||||
- **绘画思维导图**:输入"柯基"→ AI 头脑风暴生成相关词汇思维导图 → 用户选择关键词 → 生成最终图片
|
||||
Reference in New Issue
Block a user