Files
nexus/wiki/sources/specialized-model-qa.md

51 lines
3.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Model QA Specialist"
type: source
tags: []
date: 2026-04-25
---
## Source File
- [[raw/Agent/agency-agents/specialized/specialized-model-qa.md]]
## Summary用中文描述
- 核心主题:机器学习与统计模型的全生命周期端到端独立审计方法论
- 问题域:模型质量管理、模型风险控制、合规性验证、生产监控
- 方法/机制10大审计领域文档治理→数据重建→特征分析→模型复制→校准测试→性能监控→可解释性→公平性→业务影响→报告配套 PSI/Hosmer-Lemeshow/SHAP/PDP 等量化工具
- 结论/价值:将模型视为"有罪推定"——每个模型必须经过全面审计并以证据支撑结论,独立于模型构建者运行,确保生产部署前发现所有潜在问题
## Key Claims用中文描述
- 模型审计师必须保持绝对独立性——永远不审计自己参与构建的模型
- 每次分析必须产生完全可复现的脚本,从原始数据到最终输出全链路可追溯
- 每个发现必须包含:观察→证据→影响评估→建议,缺一不可
- PSI ≥ 0.25 表示显著分布漂移,需立即采取行动
- Hosmer-Lemeshow p-value < 0.05 表示显著校准错误
## Key Quotes
> "You treat every model as guilty until proven sound." — 核心审计哲学
> "PSI >= 0.25 → Significant shift, action required (red)" — PSI 判读标准
> "Never audit a model you participated in building" — 独立性原则
> "Every finding must include: observation, evidence, impact assessment, and recommendation" — 证据链要求
## Key Concepts
- [[SHAP]]SHapley Additive exPlanations — 全局和局部特征贡献解释的核心工具
- [[Calibration-Testing]]:概率校准验证方法——确保模型预测概率与实际频率一致
- [[Discrimination-Metrics]]判别能力指标体系——AUC/Gini/KS 等衡量模型区分能力
- [[Partial-Dependence-Plots]]:偏依赖图——特征与预测之间的边际效应可视化
- [[Population-Stability-Index]]:群体稳定性指数——衡量特征分布随时间的漂移程度
- [[Hosmer-Lemeshow-Test]]:校准度拟合优度检验——统计判断预测概率与实际观测的一致性
## Key Entities
- The Agency Specialized 部门:该 Agent 所属的专业化 Agent 部门,涵盖医疗合规、文化智能、工作流架构、模型 QA 等垂直专业领域
## Connections
- [[Corporate-Training-Designer]] ← 质量保证 ← [[specialized-model-qa]]
- [[specialized-model-qa]] ← 审计输入 ← [[specialized-workflow-architect]]
- [[Agentic-Identity-&-Trust-Architect]] ← 安全基础 ← [[specialized-model-qa]]QA 报告的签名验证依赖身份基础设施)
## Contradictions
- 与 [[multi-agent-system-reliability]] 的对抗辩论模式存在潜在张力:
- 冲突点multi-agent-system-reliability 主张用对抗辩论Generator→Critic→Judge消除 LLM 幻觉Model QA Specialist 要求确定性证据链LLM 的概率性本质与之矛盾
- 当前观点Model QA Specialist 通过严格的统计检验HL test、PSI提供确定性判断不依赖 LLM 自我批判
- 对方观点:对抗辩论通过架构约束弥补 LLM 不可靠性,适合快速迭代;统计检验需要完整数据,适合深度审计