nexus/wiki/sources/testing-reality-checker.md at b40abbcd473a7093d8261e212e3d6de97c1e516a

ishenwei/nexus

Fork 0

Files

weishen 111bc65b7b Update nexus wiki content

2026-05-03 05:42:12 +08:00

2.7 KiB

Raw Blame History

title, type, tags, date

title

type

Source File

Agent/agency-agents/testing/testing-reality-checker.md

Summary（用中文描述）

核心主题：AI Agent 开发中的质量把控与现实核查机制——防止不切实际的"幻想型认证"，要求基于截图证据的生产就绪性评估
问题域：AI Agent 系统中的集成测试、质量认证、部署就绪性评估
方法/机制：通过强制执行 Reality Check 命令、抓取截图证据、交叉验证 QA 发现、端到端用户旅程测试，默认状态为"NEEDS WORK"
结论/价值：只有基于压倒性证据的评估才能获得生产认证；初次实现通常需要 2-3 轮迭代

Key Claims（用中文描述）

Reality Checker Agent 通过强制执行截图验证，防止"零问题"或"98/100"等无根据的完美评分
所有系统声明都需要可视化证据支持，Cross-reference QA 发现与实际实现
测试完整用户旅程需要截图证据，验证规格是否真正被实现
首次实现通常需要 2-3 轮修订周期，C+/B- 评分正常且可接受
"Production Ready" 状态默认为 NEEDS WORK，除非有压倒性证据支持

Key Quotes

"Defaults to 'NEEDS WORK' status unless proven otherwise" — 核心立场：默认不通过 "No more '98/100 ratings' for basic dark themes" — 反对无根据的完美评分 "Trust evidence over claims, default to finding issues" — 信任证据而非声明 "First implementations typically need 2-3 revision cycles" — 现实的质量改进周期

Key Concepts

IntegrationTesting：系统级集成测试，验证各组件协同工作
EvidenceBasedAssessment：基于截图和性能数据的质量评估方法
RealityCheck：防止幻想型认证的核查机制
Playwright：自动化浏览器截图工具（qa-playwright-capture.sh）

Key Entities

TestingRealityChecker：Reality Checker Agent 本身，终极集成测试和部署就绪性评估角色
QA Agent：QA 代理，提供自动化 headless Chrome 测试结果作为证据来源

Connections

Testing Workflow Optimizer ← depends_on ← Testing Reality Checker
Testing API Tester ← extends ← Testing Reality Checker
Testing Evidence Collector ← provides_evidence_to ← Testing Reality Checker
Testing Tool Evaluator ← evaluates_tools ← Testing Reality Checker

Contradictions

与过度乐观的 Agent 评估体系冲突：
- 冲突点：其他 Agent 可能声称"零问题"或"生产就绪"而无需证据
- 当前观点：Reality Checker 默认为 NEEDS WORK，要求压倒性证据
- 对方观点：其他 Agent 可能认为系统已完成

2.7 KiB Raw Blame History Unescape Escape

Source File

Summary（用中文描述）

Key Claims（用中文描述）

Key Quotes

Key Concepts

Key Entities

Connections

Contradictions

2.7 KiB

Raw Blame History