Files
nexus/wiki/entities/Gemini.md
2026-05-03 05:42:12 +08:00

1.4 KiB
Raw Blame History

title, type, entity_type, tags, last_updated
title type entity_type tags last_updated
Gemini entity AI Model
ai
gemini
google
multimodal
image-generation
2026-05-01

Overview

Gemini 是 Google 开发的系列多模态 AI 模型,支持文本、代码、图像生成和理解等多种任务。在 AI 图片生成场景中Gemini 支持多轮对话中的风格上下文传递,适合生成风格一致的系列图片。

Key Capabilities

  • 多模态理解:同时处理文本、图像、视频等多种输入
  • 图片生成Gemini Image Gen 支持通过文本提示词生成图片
  • 风格上下文:在多轮对话中保持视觉风格一致性
  • 长上下文:支持处理长篇文档和复杂指令

Usage in Image Generation

在 AI 图片生成场景中Gemini 的核心优势是通过多轮对话传递风格上下文:

  1. 对话开始时设置系统级风格指令System Prompt
  2. 先生成第一张图片作为风格基准
  3. 后续图片通过 STYLE LOCK 块引用上一张的风格参数
  4. 支持用参考图锁定视觉基准(效果最强)
  • StyleSeedGemini 图片风格一致性的核心技术手段
  • StyleLockGemini 多轮对话中强制风格比对的检查机制
  • ReferenceImageConsistency:用 Gemini 生成的第一张图作为后续图的视觉基准

Sources