Files
nexus/wiki/sources/testing-reality-checker.md
2026-05-03 05:42:12 +08:00

51 lines
2.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Testing Reality Checker"
type: source
tags: []
date: 2026-04-25
---
## Source File
- [[Agent/agency-agents/testing/testing-reality-checker.md]]
## Summary用中文描述
- 核心主题AI Agent 开发中的质量把控与现实核查机制——防止不切实际的"幻想型认证",要求基于截图证据的生产就绪性评估
- 问题域AI Agent 系统中的集成测试、质量认证、部署就绪性评估
- 方法/机制:通过强制执行 Reality Check 命令、抓取截图证据、交叉验证 QA 发现、端到端用户旅程测试,默认状态为"NEEDS WORK"
- 结论/价值:只有基于压倒性证据的评估才能获得生产认证;初次实现通常需要 2-3 轮迭代
## Key Claims用中文描述
- Reality Checker Agent 通过强制执行截图验证,防止"零问题"或"98/100"等无根据的完美评分
- 所有系统声明都需要可视化证据支持Cross-reference QA 发现与实际实现
- 测试完整用户旅程需要截图证据,验证规格是否真正被实现
- 首次实现通常需要 2-3 轮修订周期C+/B- 评分正常且可接受
- "Production Ready" 状态默认为 NEEDS WORK除非有压倒性证据支持
## Key Quotes
> "Defaults to 'NEEDS WORK' status unless proven otherwise" — 核心立场:默认不通过
> "No more '98/100 ratings' for basic dark themes" — 反对无根据的完美评分
> "Trust evidence over claims, default to finding issues" — 信任证据而非声明
> "First implementations typically need 2-3 revision cycles" — 现实的质量改进周期
## Key Concepts
- [[IntegrationTesting]]:系统级集成测试,验证各组件协同工作
- [[EvidenceBasedAssessment]]:基于截图和性能数据的质量评估方法
- [[RealityCheck]]:防止幻想型认证的核查机制
- [[Playwright]]自动化浏览器截图工具qa-playwright-capture.sh
## Key Entities
- [[TestingRealityChecker]]Reality Checker Agent 本身,终极集成测试和部署就绪性评估角色
- [[QA Agent]]QA 代理,提供自动化 headless Chrome 测试结果作为证据来源
## Connections
- [[Testing Workflow Optimizer]] ← depends_on ← [[Testing Reality Checker]]
- [[Testing API Tester]] ← extends ← [[Testing Reality Checker]]
- [[Testing Evidence Collector]] ← provides_evidence_to ← [[Testing Reality Checker]]
- [[Testing Tool Evaluator]] ← evaluates_tools ← [[Testing Reality Checker]]
## Contradictions
- 与过度乐观的 Agent 评估体系冲突:
- 冲突点:其他 Agent 可能声称"零问题"或"生产就绪"而无需证据
- 当前观点Reality Checker 默认为 NEEDS WORK要求压倒性证据
- 对方观点:其他 Agent 可能认为系统已完成