Files
nexus/wiki/concepts/Visual-Coherence-Engine.md
2026-04-26 04:02:54 +08:00

2.0 KiB
Raw Blame History

title, type, tags, sources, last_updated
title type tags sources last_updated
Visual Coherence Engine concept
image-generation
visual-design
gemini
brand-consistency
carousel
marketing-carousel-growth-engine
2026-04-26

Definition

通过 AI 图生图image-to-image机制实现多图视觉风格一致性的系统。第一张幻灯片定义"视觉 DNA",后续幻灯片以此为参考生成,保持配色、字体、场景叙事的连贯统一。

Mechanism

Slide 1 → 纯文本 prompt → Gemini 生成 → slide-1.jpg定义视觉 DNA
Slide 2 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-2.jpg
Slide 3 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-3.jpg
Slide 4 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-4.jpg
Slide 5 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-5.jpg
Slide 6 → slide-1.jpg 作为 --input-image → Gemini 图生图 → slide-6.jpg

核心要素

  1. Slide 1 纯文本生成: 无参考图,完全由 prompt 描述视觉方向
  2. Slides 2-6 图生图: slide-1.jpg 作为 --input-image 参考输入
  3. 视觉 DNA 保留: 配色、字体风格、背景场景跨所有幻灯片保持一致
  4. 场景叙事演进: 背景场景随叙事演进,但整体视觉语言不变

扩展要素

  • 品牌颜色整合: Playwright 从网站提取 CSS 颜色,织入 Gemini 提示词
  • 字体一致性: 结构化提示词维护字体风格和大小
  • 场景连续性: 背景场景随叙事发展逐步演化

质量保证

  • 视觉模型验证每张幻灯片:文字可读性/拼写/质量
  • 底部 20% 区域检查TikTok 控件遮挡)
  • 不合格幻灯片仅重生成该张,保留 slide-1.jpg 作为参考

marketing-carousel-growth-engine 使用 gemini-3.1-flash-image-preview 实现此引擎。

Aliases

  • Visual DNA
  • Image Coherence
  • Visual Consistency
  • 图生图一致性