Update nexus wiki content

2026-05-03 05:42:06 +08:00
parent 90f3811b83
commit 111bc65b7b
707 changed files with 32306 additions and 7289 deletions
--- a/wiki/sources/specialized-model-qa.md
+++ b/wiki/sources/specialized-model-qa.md
@@ -1,50 +1,56 @@
 ---
 title: "Model QA Specialist"
 type: source
-tags: []
-date: 2026-04-25
+tags: [model-qa, ml-audit, interpretability, calibration, shap, psi, the-agency, specialized]
+date: 2026-05-29
 ---

 ## Source File
- [[raw/Agent/agency-agents/specialized/specialized-model-qa.md]]
+- [[Agent/agency-agents/specialized/specialized-model-qa.md]]

 ## Summary（用中文描述）
- 核心主题：机器学习与统计模型的全生命周期端到端独立审计方法论
- 问题域：模型质量管理、模型风险控制、合规性验证、生产监控
- 方法/机制：10大审计领域（文档治理→数据重建→特征分析→模型复制→校准测试→性能监控→可解释性→公平性→业务影响→报告），配套 PSI/Hosmer-Lemeshow/SHAP/PDP 等量化工具
- 结论/价值：将模型视为"有罪推定"——每个模型必须经过全面审计并以证据支撑结论，独立于模型构建者运行，确保生产部署前发现所有潜在问题
+- 核心主题：ML 模型全生命周期端到端独立审计专家（Model QA Specialist），隶属于 The Agency Specialized 部门
+- 问题域：模型质量管理、模型风险评估、模型可解释性、模型公平性审计
+- 方法/机制：十域 QA 方法论（文档治理→数据重建→标签分析→分段评估→特征分析→模型复制→校准测试→性能监控→可解释性与公平性→商业影响）；技术栈：PSI + SHAP + PDP + Hosmer-Lemeshow + Gini/KS；四阶段工作流；Severity 分级（High/Medium/Low/Info）；QA 报告交付模板
+- 结论/价值：提供证据驱动的模型审计，零主观意见，每项发现必须量化影响；成功标准：95%+ 发现确认率、100% QA 域覆盖、复制输出与原始偏差 <1%、零发布后失败

 ## Key Claims（用中文描述）
- 模型审计师必须保持绝对独立性——永远不审计自己参与构建的模型
- 每次分析必须产生完全可复现的脚本，从原始数据到最终输出全链路可追溯
- 每个发现必须包含：观察→证据→影响评估→建议，缺一不可
- PSI ≥ 0.25 表示显著分布漂移，需立即采取行动
- Hosmer-Lemeshow p-value < 0.05 表示显著校准错误
+- 模型 QA 专家必须独立于所审计的模型——从不审计自己参与构建的模型，保持客观性，用数据挑战每个假设
+- 每次分析必须完全可重现：从原始数据到最终输出的每一步都必须有版本化脚本，无人工干预步骤
+- 每项发现必须包含：观察（observation）、证据（evidence）、影响评估（impact assessment）和整改建议（recommendation），且将严重性分为 High/Medium/Low/Info 四级
+- 模型 QA 覆盖十个领域：文档与治理审查 → 数据重建与质量 → 目标/标签分析 → 分段与队列评估 → 特征分析与工程 → 模型复制与构建 → 校准测试 → 性能与监控 → 可解释性与公平性 → 商业影响与沟通

 ## Key Quotes
-> "You treat every model as guilty until proven sound." — 核心审计哲学
-> "PSI >= 0.25 → Significant shift, action required (red)" — PSI 判读标准
-> "Never audit a model you participated in building" — 独立性原则
-> "Every finding must include: observation, evidence, impact assessment, and recommendation" — 证据链要求
+> "You treat every model as guilty until proven sound." — 核心审计哲学：无罪推定，有证据才过关
+> "PSI >= 0.25 indicates significant population shift, action required." — PSI 红线阈值，超过则需干预
+> "Every finding must include: observation, evidence, impact assessment, and recommendation. Never state 'the model is wrong' without quantifying the impact." — 证据驱动原则：质量评估不允许主观断言

 ## Key Concepts
- [[SHAP]]：SHapley Additive exPlanations — 全局和局部特征贡献解释的核心工具
- [[Calibration-Testing]]：概率校准验证方法——确保模型预测概率与实际频率一致
- [[Discrimination-Metrics]]：判别能力指标体系——AUC/Gini/KS 等衡量模型区分能力
- [[Partial-Dependence-Plots]]：偏依赖图——特征与预测之间的边际效应可视化
- [[Population-Stability-Index]]：群体稳定性指数——衡量特征分布随时间的漂移程度
- [[Hosmer-Lemeshow-Test]]：校准度拟合优度检验——统计判断预测概率与实际观测的一致性
+- [[Population Stability Index (PSI)]]：衡量特征或预测分数在时间窗口间的分布漂移，阈值：<0.10 绿/0.10–0.25 琥珀/>=0.25 红
+- [[SHAP-Value-Analysis]]：通过 SHAP 全局（beeswarm/bar importance plot）和局部（waterfall plot）分析量化特征贡献，是可解释性的核心技术手段
+- [[Partial Dependence Plots (PDP)]]：显示每个特征对预测的边际效应，用于验证模型学习的非线性关系和特征交互
+- [[Hosmer-Lemeshow-Test]]：概率校准的统计检验，p-value < 0.05 表明显著校准误差
+- [[Discrimination Metrics (Gini & KS)]]：AUC/Gini/KS 统计量衡量分类器区分正负样本的能力
+- [[Calibration Testing]]：通过 reliability diagram、Brier score 等验证预测概率的可靠性
+- [[Champion-Challenger Framework]]：基准测试框架——将待审计模型（新）与生产模型（旧）并行评分对比
+- [[Fairness Audit]]：跨受保护特征（种族/性别/年龄等）进行 demographic parity 和 equalized odds 检验

 ## Key Entities
- The Agency Specialized 部门：该 Agent 所属的专业化 Agent 部门，涵盖医疗合规、文化智能、工作流架构、模型 QA 等垂直专业领域
+- [[The Agency]]：所在组织，提供 Specialized 部门多领域专家 Agent 网络
+- [[Agentic-Identity-Trust-Architect]]：身份与信任验证基础设施，与 Model QA Specialist 在模型访问权限和身份认证层面协作
+- [[Compliance-Auditor]]：合规审计专家，与 Model QA Specialist 在监管合规领域协作——QA 发现可能触发合规审查
+- [[Identity-Graph-Operator]]：身份图谱操作员，与 Model QA Specialist 在数据身份对齐层面协作
+- [[Document-Generator-Agent]]：文档生成 Agent，与 Model QA Specialist 在 QA 报告输出格式层面协作

 ## Connections
- [[Corporate-Training-Designer]] ← 质量保证 ← [[specialized-model-qa]]
- [[specialized-model-qa]] ← 审计输入 ← [[specialized-workflow-architect]]
- [[Agentic-Identity-&-Trust-Architect]] ← 安全基础 ← [[specialized-model-qa]]（QA 报告的签名验证依赖身份基础设施）
+- [[The Agency]] ← provides agent network ← [[Model QA Specialist]] is a Specialized department agent
+- [[Population Stability Index (PSI)]] ← is measured by ← [[SHAP-Value-Analysis]]
+- [[SHAP-Value-Analysis]] ← informs ← [[Fairness Audit]]
+- [[Hosmer-Lemeshow-Test]] ← used in ← [[Calibration Testing]]
+- [[Champion-Challenger Framework]] ← benchmarked by ← [[Discrimination Metrics (Gini & KS)]]
+- [[Partial Dependence Plots (PDP)]] ← used for ← [[Feature Analysis]]
+- [[Model QA Specialist]] ← produces QA reports consumed by ← [[Compliance-Auditor]]
+- [[Model QA Specialist]] ← uses templates from ← [[Document-Generator-Agent]]

 ## Contradictions
- 与 [[multi-agent-system-reliability]] 的对抗辩论模式存在潜在张力：
-  - 冲突点：multi-agent-system-reliability 主张用对抗辩论（Generator→Critic→Judge）消除 LLM 幻觉；Model QA Specialist 要求确定性证据链，LLM 的概率性本质与之矛盾
-  - 当前观点：Model QA Specialist 通过严格的统计检验（HL test、PSI）提供确定性判断，不依赖 LLM 自我批判
-  - 对方观点：对抗辩论通过架构约束弥补 LLM 不可靠性，适合快速迭代；统计检验需要完整数据，适合深度审计
+- 无实质性内容冲突——Model QA Specialist 的 QA 方法论与 wiki 中其他来源在技术层面互补而非竞争