Files
nexus/wiki/concepts/Visual-Coherence-Engine.md
2026-04-26 04:02:54 +08:00

52 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Visual Coherence Engine"
type: concept
tags: ["image-generation", "visual-design", "gemini", "brand-consistency", "carousel"]
sources: ["marketing-carousel-growth-engine"]
last_updated: 2026-04-26
---
## Definition
通过 AI 图生图image-to-image机制实现多图视觉风格一致性的系统。第一张幻灯片定义"视觉 DNA",后续幻灯片以此为参考生成,保持配色、字体、场景叙事的连贯统一。
## Mechanism
```
Slide 1 → 纯文本 prompt → Gemini 生成 → slide-1.jpg定义视觉 DNA
Slide 2 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-2.jpg
Slide 3 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-3.jpg
Slide 4 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-4.jpg
Slide 5 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-5.jpg
Slide 6 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-6.jpg
```
## 核心要素
1. **Slide 1 纯文本生成**: 无参考图,完全由 prompt 描述视觉方向
2. **Slides 2-6 图生图**: slide-1.jpg 作为 `--input-image` 参考输入
3. **视觉 DNA 保留**: 配色、字体风格、背景场景跨所有幻灯片保持一致
4. **场景叙事演进**: 背景场景随叙事演进,但整体视觉语言不变
## 扩展要素
- **品牌颜色整合**: Playwright 从网站提取 CSS 颜色,织入 Gemini 提示词
- **字体一致性**: 结构化提示词维护字体风格和大小
- **场景连续性**: 背景场景随叙事发展逐步演化
## 质量保证
- 视觉模型验证每张幻灯片:文字可读性/拼写/质量
- 底部 20% 区域检查TikTok 控件遮挡)
- 不合格幻灯片仅重生成该张,保留 slide-1.jpg 作为参考
## Usage in [[marketing-carousel-growth-engine]]
[[marketing-carousel-growth-engine]] 使用 `gemini-3.1-flash-image-preview` 实现此引擎。
## Aliases
- Visual DNA
- Image Coherence
- Visual Consistency
- 图生图一致性