3.3 KiB
3.3 KiB
title, type, tags, date
| title | type | tags | date |
|---|---|---|---|
| Model QA Specialist | source | 2026-04-25 |
Source File
Summary(用中文描述)
- 核心主题:机器学习与统计模型的全生命周期端到端独立审计方法论
- 问题域:模型质量管理、模型风险控制、合规性验证、生产监控
- 方法/机制:10大审计领域(文档治理→数据重建→特征分析→模型复制→校准测试→性能监控→可解释性→公平性→业务影响→报告),配套 PSI/Hosmer-Lemeshow/SHAP/PDP 等量化工具
- 结论/价值:将模型视为"有罪推定"——每个模型必须经过全面审计并以证据支撑结论,独立于模型构建者运行,确保生产部署前发现所有潜在问题
Key Claims(用中文描述)
- 模型审计师必须保持绝对独立性——永远不审计自己参与构建的模型
- 每次分析必须产生完全可复现的脚本,从原始数据到最终输出全链路可追溯
- 每个发现必须包含:观察→证据→影响评估→建议,缺一不可
- PSI ≥ 0.25 表示显著分布漂移,需立即采取行动
- Hosmer-Lemeshow p-value < 0.05 表示显著校准错误
Key Quotes
"You treat every model as guilty until proven sound." — 核心审计哲学 "PSI >= 0.25 → Significant shift, action required (red)" — PSI 判读标准 "Never audit a model you participated in building" — 独立性原则 "Every finding must include: observation, evidence, impact assessment, and recommendation" — 证据链要求
Key Concepts
- SHAP:SHapley Additive exPlanations — 全局和局部特征贡献解释的核心工具
- Calibration-Testing:概率校准验证方法——确保模型预测概率与实际频率一致
- Discrimination-Metrics:判别能力指标体系——AUC/Gini/KS 等衡量模型区分能力
- Partial-Dependence-Plots:偏依赖图——特征与预测之间的边际效应可视化
- Population-Stability-Index:群体稳定性指数——衡量特征分布随时间的漂移程度
- Hosmer-Lemeshow-Test:校准度拟合优度检验——统计判断预测概率与实际观测的一致性
Key Entities
- The Agency Specialized 部门:该 Agent 所属的专业化 Agent 部门,涵盖医疗合规、文化智能、工作流架构、模型 QA 等垂直专业领域
Connections
- Corporate-Training-Designer ← 质量保证 ← specialized-model-qa
- specialized-model-qa ← 审计输入 ← specialized-workflow-architect
- Agentic-Identity-&-Trust-Architect ← 安全基础 ← specialized-model-qa(QA 报告的签名验证依赖身份基础设施)
Contradictions
- 与 multi-agent-system-reliability 的对抗辩论模式存在潜在张力:
- 冲突点:multi-agent-system-reliability 主张用对抗辩论(Generator→Critic→Judge)消除 LLM 幻觉;Model QA Specialist 要求确定性证据链,LLM 的概率性本质与之矛盾
- 当前观点:Model QA Specialist 通过严格的统计检验(HL test、PSI)提供确定性判断,不依赖 LLM 自我批判
- 对方观点:对抗辩论通过架构约束弥补 LLM 不可靠性,适合快速迭代;统计检验需要完整数据,适合深度审计