nexus/wiki/entities/Gemini.md at b40abbcd473a7093d8261e212e3d6de97c1e516a - nexus - Gitea: Git with a cup of tea

ishenwei/nexus

Files

weishen 111bc65b7b Update nexus wiki content

2026-05-03 05:42:12 +08:00

1.4 KiB

Raw Blame History

title, type, entity_type, tags, last_updated

title

type

entity_type

tags

last_updated

Gemini

entity

AI Model

ai

gemini

google

multimodal

image-generation

2026-05-01

Overview

Gemini 是 Google 开发的系列多模态 AI 模型，支持文本、代码、图像生成和理解等多种任务。在 AI 图片生成场景中，Gemini 支持多轮对话中的风格上下文传递，适合生成风格一致的系列图片。

Key Capabilities

多模态理解：同时处理文本、图像、视频等多种输入
图片生成：Gemini Image Gen 支持通过文本提示词生成图片
风格上下文：在多轮对话中保持视觉风格一致性
长上下文：支持处理长篇文档和复杂指令

Usage in Image Generation

在 AI 图片生成场景中，Gemini 的核心优势是通过多轮对话传递风格上下文：

对话开始时设置系统级风格指令（System Prompt）
先生成第一张图片作为风格基准
后续图片通过 STYLE LOCK 块引用上一张的风格参数
支持用参考图锁定视觉基准（效果最强）

StyleSeed：Gemini 图片风格一致性的核心技术手段
StyleLock：Gemini 多轮对话中强制风格比对的检查机制
ReferenceImageConsistency：用 Gemini 生成的第一张图作为后续图的视觉基准

Sources

如何让AI生成风格一致的图片