2.0 KiB
2.0 KiB
title, type, tags, sources, last_updated
| title | type | tags | sources | last_updated | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| Visual Coherence Engine | concept |
|
|
2026-04-26 |
Definition
通过 AI 图生图(image-to-image)机制实现多图视觉风格一致性的系统。第一张幻灯片定义"视觉 DNA",后续幻灯片以此为参考生成,保持配色、字体、场景叙事的连贯统一。
Mechanism
Slide 1 → 纯文本 prompt → Gemini 生成 → slide-1.jpg(定义视觉 DNA)
Slide 2 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-2.jpg
Slide 3 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-3.jpg
Slide 4 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-4.jpg
Slide 5 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-5.jpg
Slide 6 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-6.jpg
核心要素
- Slide 1 纯文本生成: 无参考图,完全由 prompt 描述视觉方向
- Slides 2-6 图生图: slide-1.jpg 作为
--input-image参考输入 - 视觉 DNA 保留: 配色、字体风格、背景场景跨所有幻灯片保持一致
- 场景叙事演进: 背景场景随叙事演进,但整体视觉语言不变
扩展要素
- 品牌颜色整合: Playwright 从网站提取 CSS 颜色,织入 Gemini 提示词
- 字体一致性: 结构化提示词维护字体风格和大小
- 场景连续性: 背景场景随叙事发展逐步演化
质量保证
- 视觉模型验证每张幻灯片:文字可读性/拼写/质量
- 底部 20% 区域检查(TikTok 控件遮挡)
- 不合格幻灯片仅重生成该张,保留 slide-1.jpg 作为参考
Usage in marketing-carousel-growth-engine
marketing-carousel-growth-engine 使用 gemini-3.1-flash-image-preview 实现此引擎。
Aliases
- Visual DNA
- Image Coherence
- Visual Consistency
- 图生图一致性