41 lines
2.0 KiB
Markdown
41 lines
2.0 KiB
Markdown
---
|
||
title: "Self-Grading Illusion"
|
||
type: concept
|
||
tags:
|
||
- "agentic-ai"
|
||
- "evaluation"
|
||
- "failure-mode"
|
||
sources:
|
||
- "Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog"
|
||
last_updated: 2026-04-20
|
||
---
|
||
|
||
## Overview
|
||
Self-Grading Illusion——LLM 无法有效评估自身输出的结构性缺陷。同一套权重既生成输出又评判输出——生成输出的权重位置决定了它不能可靠地评判该输出,导致对平庸输出给予不配得的信心评分。
|
||
|
||
## Mechanism
|
||
当 LLM 被要求评估自己生成的内容时:
|
||
- 它使用生成该内容的同一内部表征做出判断
|
||
- 这些表征对自身产出的缺陷有"盲点"(因为它们就是产生缺陷的原因)
|
||
- 结果:结构性的自我偏好,而非客观评估
|
||
|
||
## Source in Article
|
||
Anthropic 在 steering vectors 和内部模型表征方面的研究被本文引用,表明在冲突约束下("修这个 bug,但又不能改任何代码"),模型内部状态有可测量的变化——不只是表面文本预测出错,模型在内部对"看起来正确"而非"真正正确"进行了优化。
|
||
|
||
## Solution: Sprint Contract
|
||
[[Sprint-Contract]] 通过角色分离打破结构性缺陷:
|
||
1. **Generator** 生成输出
|
||
2. **Evaluator** 在**干净上下文**中评估——只接收输出 + 成功标准,不读 Generator 的思维链
|
||
3. **Evaluator 必须执行**:运行代码、在 headless 浏览器验证接口、对比 schema——不只是读文本然后评判
|
||
|
||
## Key Rules
|
||
- Evaluator 必须在干净上下文中操作——如果它读取了 Generator 的完整推理链,它继承了 Generator 的假设和盲点
|
||
- 给 Evaluator 的信息:输出 + 成功标准,**无其他**
|
||
|
||
## Source
|
||
- [[Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog]]
|
||
|
||
## See Also
|
||
- [[Sprint-Contract]] — 具体解决方案
|
||
- [[LLM-as-a-Judge]] — 相关评估模式(LLM-as-Judge 适用于主观评估,Self-Grading Illusion 适用于自我评估)
|