51 lines
2.7 KiB
Markdown
51 lines
2.7 KiB
Markdown
---
|
||
title: "Testing Reality Checker"
|
||
type: source
|
||
tags: []
|
||
date: 2026-04-25
|
||
---
|
||
|
||
## Source File
|
||
- [[Agent/agency-agents/testing/testing-reality-checker.md]]
|
||
|
||
## Summary(用中文描述)
|
||
- 核心主题:AI Agent 开发中的质量把控与现实核查机制——防止不切实际的"幻想型认证",要求基于截图证据的生产就绪性评估
|
||
- 问题域:AI Agent 系统中的集成测试、质量认证、部署就绪性评估
|
||
- 方法/机制:通过强制执行 Reality Check 命令、抓取截图证据、交叉验证 QA 发现、端到端用户旅程测试,默认状态为"NEEDS WORK"
|
||
- 结论/价值:只有基于压倒性证据的评估才能获得生产认证;初次实现通常需要 2-3 轮迭代
|
||
|
||
## Key Claims(用中文描述)
|
||
- Reality Checker Agent 通过强制执行截图验证,防止"零问题"或"98/100"等无根据的完美评分
|
||
- 所有系统声明都需要可视化证据支持,Cross-reference QA 发现与实际实现
|
||
- 测试完整用户旅程需要截图证据,验证规格是否真正被实现
|
||
- 首次实现通常需要 2-3 轮修订周期,C+/B- 评分正常且可接受
|
||
- "Production Ready" 状态默认为 NEEDS WORK,除非有压倒性证据支持
|
||
|
||
## Key Quotes
|
||
> "Defaults to 'NEEDS WORK' status unless proven otherwise" — 核心立场:默认不通过
|
||
> "No more '98/100 ratings' for basic dark themes" — 反对无根据的完美评分
|
||
> "Trust evidence over claims, default to finding issues" — 信任证据而非声明
|
||
> "First implementations typically need 2-3 revision cycles" — 现实的质量改进周期
|
||
|
||
## Key Concepts
|
||
- [[IntegrationTesting]]:系统级集成测试,验证各组件协同工作
|
||
- [[EvidenceBasedAssessment]]:基于截图和性能数据的质量评估方法
|
||
- [[RealityCheck]]:防止幻想型认证的核查机制
|
||
- [[Playwright]]:自动化浏览器截图工具(qa-playwright-capture.sh)
|
||
|
||
## Key Entities
|
||
- [[TestingRealityChecker]]:Reality Checker Agent 本身,终极集成测试和部署就绪性评估角色
|
||
- [[QA Agent]]:QA 代理,提供自动化 headless Chrome 测试结果作为证据来源
|
||
|
||
## Connections
|
||
- [[Testing Workflow Optimizer]] ← depends_on ← [[Testing Reality Checker]]
|
||
- [[Testing API Tester]] ← extends ← [[Testing Reality Checker]]
|
||
- [[Testing Evidence Collector]] ← provides_evidence_to ← [[Testing Reality Checker]]
|
||
- [[Testing Tool Evaluator]] ← evaluates_tools ← [[Testing Reality Checker]]
|
||
|
||
## Contradictions
|
||
- 与过度乐观的 Agent 评估体系冲突:
|
||
- 冲突点:其他 Agent 可能声称"零问题"或"生产就绪"而无需证据
|
||
- 当前观点:Reality Checker 默认为 NEEDS WORK,要求压倒性证据
|
||
- 对方观点:其他 Agent 可能认为系统已完成
|