52 lines
2.0 KiB
Markdown
52 lines
2.0 KiB
Markdown
---
|
||
title: "Visual Coherence Engine"
|
||
type: concept
|
||
tags: ["image-generation", "visual-design", "gemini", "brand-consistency", "carousel"]
|
||
sources: ["marketing-carousel-growth-engine"]
|
||
last_updated: 2026-04-26
|
||
---
|
||
|
||
## Definition
|
||
|
||
通过 AI 图生图(image-to-image)机制实现多图视觉风格一致性的系统。第一张幻灯片定义"视觉 DNA",后续幻灯片以此为参考生成,保持配色、字体、场景叙事的连贯统一。
|
||
|
||
## Mechanism
|
||
|
||
```
|
||
Slide 1 → 纯文本 prompt → Gemini 生成 → slide-1.jpg(定义视觉 DNA)
|
||
Slide 2 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-2.jpg
|
||
Slide 3 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-3.jpg
|
||
Slide 4 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-4.jpg
|
||
Slide 5 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-5.jpg
|
||
Slide 6 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-6.jpg
|
||
```
|
||
|
||
## 核心要素
|
||
|
||
1. **Slide 1 纯文本生成**: 无参考图,完全由 prompt 描述视觉方向
|
||
2. **Slides 2-6 图生图**: slide-1.jpg 作为 `--input-image` 参考输入
|
||
3. **视觉 DNA 保留**: 配色、字体风格、背景场景跨所有幻灯片保持一致
|
||
4. **场景叙事演进**: 背景场景随叙事演进,但整体视觉语言不变
|
||
|
||
## 扩展要素
|
||
|
||
- **品牌颜色整合**: Playwright 从网站提取 CSS 颜色,织入 Gemini 提示词
|
||
- **字体一致性**: 结构化提示词维护字体风格和大小
|
||
- **场景连续性**: 背景场景随叙事发展逐步演化
|
||
|
||
## 质量保证
|
||
|
||
- 视觉模型验证每张幻灯片:文字可读性/拼写/质量
|
||
- 底部 20% 区域检查(TikTok 控件遮挡)
|
||
- 不合格幻灯片仅重生成该张,保留 slide-1.jpg 作为参考
|
||
|
||
## Usage in [[marketing-carousel-growth-engine]]
|
||
|
||
[[marketing-carousel-growth-engine]] 使用 `gemini-3.1-flash-image-preview` 实现此引擎。
|
||
|
||
## Aliases
|
||
- Visual DNA
|
||
- Image Coherence
|
||
- Visual Consistency
|
||
- 图生图一致性
|