Update nexus wiki content

2026-05-03 05:42:06 +08:00
parent 90f3811b83
commit 111bc65b7b
707 changed files with 32306 additions and 7289 deletions
--- a/wiki/concepts/Self-Grading-Illusion.md
+++ b/wiki/concepts/Self-Grading-Illusion.md
@@ -0,0 +1,40 @@
+---
+title: "Self-Grading Illusion"
+type: concept
+tags:
+  - "agentic-ai"
+  - "evaluation"
+  - "failure-mode"
+sources:
+  - "Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog"
+last_updated: 2026-04-20
+---
+
+## Overview
+Self-Grading Illusion——LLM 无法有效评估自身输出的结构性缺陷。同一套权重既生成输出又评判输出——生成输出的权重位置决定了它不能可靠地评判该输出，导致对平庸输出给予不配得的信心评分。
+
+## Mechanism
+当 LLM 被要求评估自己生成的内容时：
+- 它使用生成该内容的同一内部表征做出判断
+- 这些表征对自身产出的缺陷有"盲点"（因为它们就是产生缺陷的原因）
+- 结果：结构性的自我偏好，而非客观评估
+
+## Source in Article
+Anthropic 在 steering vectors 和内部模型表征方面的研究被本文引用，表明在冲突约束下（"修这个 bug，但又不能改任何代码"），模型内部状态有可测量的变化——不只是表面文本预测出错，模型在内部对"看起来正确"而非"真正正确"进行了优化。
+
+## Solution: Sprint Contract
+[[Sprint-Contract]] 通过角色分离打破结构性缺陷：
+1. **Generator** 生成输出
+2. **Evaluator** 在**干净上下文**中评估——只接收输出 + 成功标准，不读 Generator 的思维链
+3. **Evaluator 必须执行**：运行代码、在 headless 浏览器验证接口、对比 schema——不只是读文本然后评判
+
+## Key Rules
+- Evaluator 必须在干净上下文中操作——如果它读取了 Generator 的完整推理链，它继承了 Generator 的假设和盲点
+- 给 Evaluator 的信息：输出 + 成功标准，**无其他**
+
+## Source
+- [[Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog]]
+
+## See Also
+- [[Sprint-Contract]] — 具体解决方案
+- [[LLM-as-a-Judge]] — 相关评估模式（LLM-as-Judge 适用于主观评估，Self-Grading Illusion 适用于自我评估）