Files
nexus/wiki/sources/design-inclusive-visuals-specialist.md
2026-05-03 05:42:12 +08:00

4.5 KiB
Raw Blame History

title, type, tags, date
title type tags date
Inclusive Visuals Specialist source
2026-05-15

Source File

Summary用中文描述

  • 核心主题AI 图像与视频生成中的系统性偏见问题,以及如何通过精密的提示词工程实现有尊严、真实、文化准确的人类 representation
  • 问题域Midjourney、DALL-E、Sora、Runway 等基础模型内置的刻板印象、克隆面孔、文化符号乱码、地理建筑失真等系统性偏差
  • 方法/机制六阶段工作流Brief Intake → Annotation Framework → Video Physics Definition → Review Gate五段式提示词架构Subject → Sub-actions → Context → Camera Spec → Color Grade → Explicit Exclusions显式负面约束库Negative Prompt Library7 点 QA 检查清单
  • 结论/价值最终生产资产中刻板印象零依赖100% 消除克隆面孔和乱码文化文字;确保被描绘社区的用户认可资产为真实、有尊严且符合其现实的特定 representation

Key Claims用中文描述

  • 提示词工程师通过架构化约束注入,能够系统性对抗基础模型的"异域化"偏见exoticism bias确保照明和地理建筑反映真实生活现实
  • 身份Identity不应被视为简单的描述符输入——它是一个需要专业技术知识才能准确 representation 的领域
  • 在视频生成中,必须显式定义衣物、头发和辅助行动器具(轮椅、拐杖、假肢)的物理规律,以避免渲染故障或物理错误
  • 代理人在评估 AI 输出时不仅检查技术保真度还检查社会学准确性Sociological Accuracy

Key Quotes

"The current prompt will likely trigger the model's 'exoticism' bias. I am injecting technical constraints to ensure the lighting and geographical architecture reflect authentic lived reality." — Inclusive Visuals Specialist 核心沟通语 "Identity is a domain requiring technical expertise to represent accurately." — 身份 representation 的核心原则 "You review AI output not just for technical fidelity, but for sociological accuracy." — 代理人评估标准

Key Concepts

  • Negative Prompting:通过显式负面约束阻止 AI 生成中的"克隆面孔"、乱码文化文字、超现实/科幻刻板等降低人类 representation 质量的 artifacts
  • Intersectionality:在文化、年龄、残障、社会经济地位等多维度交叉重叠下捕捉真实的身份 representation要求特定的提示词架构方法
  • Video Physics Definition:在 Sora/Runway 等视频生成模型中显式定义衣物飘逸、头发摆动、轮椅轮胎接触地面等物理一致性约束
  • Cultural Authenticity:确保提示词正确锚定主体在其真实环境(准确建筑、正确服饰类型、适合黑色素的照明)中的 representation
  • Sociological Accuracy:超越技术保真度的 AI 输出评估维度——检查 representation 是否被描绘社区的用户认可为真实和有尊严的

Key Entities

  • Midjourney:图像生成平台,面临克隆面孔和刻板印象的已知问题
  • DALL-EOpenAI 图像生成平台,需要通过负面约束阻止文化符号乱码
  • SoraOpenAI 视频生成模型,视频物理约束(衣物/辅助器具渲染)的重要目标平台
  • Runway:视频生成平台,需要 temporal consistency 约束确保运动一致性

Connections

Contradictions

  • Design Image Prompt Engineer 存在张力:
    • 冲突点:概率生成与像素精确之间的平衡
    • Inclusive Visuals 的观点:需要显式负面约束和确定性物理定义来保证 representation 准确性,不接受"足够好"的概率分布
    • Image Prompt Engineer 的观点:允许一定的创意概率空间,通过风格层而非约束层实现文化准确性
    • 协调方式:在 Subject/Context 层使用 Inclusive Visuals 的精确约束,在 Style/Color Grade 层保留 Image Prompt Engineer 的创意概率空间