Files
nexus/wiki/concepts/对抗式辩论-Adversarial-Debate.md
2026-04-18 12:03:16 +08:00

1.3 KiB
Raw Blame History

title, type, tags, sources, last_updated
title type tags sources last_updated
对抗式辩论 (Adversarial Debate) concept
agent-architecture
multi-agent
reliability
raw/AI/Multi-Agent System Reliability.md
2026-04-18

Definition

对抗式辩论是一种多智能体架构模式,模仿法庭审判结构:一方提出方案,另一方作为"魔鬼代言人"反驳,由第三方评判谁是谁非。通过外部批评者模拟人类"恐惧"机制,纠正 LLM"好好先生"的倾向。

Components

Generator生成器

提出方案或计划

Critic批评者

扮演反方角色,列出方案的问题和缺陷

Judge评判器

作为主持人,判断批评者是否言之有理,要求生成器修正

Why It Works

LLM 是"好好先生",一旦开始写作很少自我纠正。通过指定一个"敌人"来模拟人类对犯错的恐惧,强制模型重新审视自己的输出。

Nuances

  • 理想情况下 Generator、Critic、Judge 应使用 3 个不同模型
  • 顺序执行且具有循环特性,速度可能非常慢
  • 参与者可能陷入无限争论
  • 可使用 Watchdog Pattern确定性代码在超过时间或计数器阈值时打破循环

Best For

安全分析、代码审查、高风险内容审核