Files
nexus/wiki/concepts/Self-Grading-Illusion.md
2026-05-03 05:42:12 +08:00

41 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Self-Grading Illusion"
type: concept
tags:
- "agentic-ai"
- "evaluation"
- "failure-mode"
sources:
- "Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog"
last_updated: 2026-04-20
---
## Overview
Self-Grading Illusion——LLM 无法有效评估自身输出的结构性缺陷。同一套权重既生成输出又评判输出——生成输出的权重位置决定了它不能可靠地评判该输出,导致对平庸输出给予不配得的信心评分。
## Mechanism
当 LLM 被要求评估自己生成的内容时:
- 它使用生成该内容的同一内部表征做出判断
- 这些表征对自身产出的缺陷有"盲点"(因为它们就是产生缺陷的原因)
- 结果:结构性的自我偏好,而非客观评估
## Source in Article
Anthropic 在 steering vectors 和内部模型表征方面的研究被本文引用,表明在冲突约束下("修这个 bug但又不能改任何代码"),模型内部状态有可测量的变化——不只是表面文本预测出错,模型在内部对"看起来正确"而非"真正正确"进行了优化。
## Solution: Sprint Contract
[[Sprint-Contract]] 通过角色分离打破结构性缺陷:
1. **Generator** 生成输出
2. **Evaluator** 在**干净上下文**中评估——只接收输出 + 成功标准,不读 Generator 的思维链
3. **Evaluator 必须执行**:运行代码、在 headless 浏览器验证接口、对比 schema——不只是读文本然后评判
## Key Rules
- Evaluator 必须在干净上下文中操作——如果它读取了 Generator 的完整推理链,它继承了 Generator 的假设和盲点
- 给 Evaluator 的信息:输出 + 成功标准,**无其他**
## Source
- [[Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog]]
## See Also
- [[Sprint-Contract]] — 具体解决方案
- [[LLM-as-a-Judge]] — 相关评估模式LLM-as-Judge 适用于主观评估Self-Grading Illusion 适用于自我评估)