--- title: "Visual Coherence Engine" type: concept tags: ["image-generation", "visual-design", "gemini", "brand-consistency", "carousel"] sources: ["marketing-carousel-growth-engine"] last_updated: 2026-04-26 --- ## Definition 通过 AI 图生图(image-to-image)机制实现多图视觉风格一致性的系统。第一张幻灯片定义"视觉 DNA",后续幻灯片以此为参考生成,保持配色、字体、场景叙事的连贯统一。 ## Mechanism ``` Slide 1 → 纯文本 prompt → Gemini 生成 → slide-1.jpg(定义视觉 DNA) Slide 2 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-2.jpg Slide 3 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-3.jpg Slide 4 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-4.jpg Slide 5 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-5.jpg Slide 6 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-6.jpg ``` ## 核心要素 1. **Slide 1 纯文本生成**: 无参考图,完全由 prompt 描述视觉方向 2. **Slides 2-6 图生图**: slide-1.jpg 作为 `--input-image` 参考输入 3. **视觉 DNA 保留**: 配色、字体风格、背景场景跨所有幻灯片保持一致 4. **场景叙事演进**: 背景场景随叙事演进,但整体视觉语言不变 ## 扩展要素 - **品牌颜色整合**: Playwright 从网站提取 CSS 颜色,织入 Gemini 提示词 - **字体一致性**: 结构化提示词维护字体风格和大小 - **场景连续性**: 背景场景随叙事发展逐步演化 ## 质量保证 - 视觉模型验证每张幻灯片:文字可读性/拼写/质量 - 底部 20% 区域检查(TikTok 控件遮挡) - 不合格幻灯片仅重生成该张,保留 slide-1.jpg 作为参考 ## Usage in [[marketing-carousel-growth-engine]] [[marketing-carousel-growth-engine]] 使用 `gemini-3.1-flash-image-preview` 实现此引擎。 ## Aliases - Visual DNA - Image Coherence - Visual Consistency - 图生图一致性