Files
nexus/wiki/sources/specialized-model-qa.md
2026-05-03 05:42:12 +08:00

4.7 KiB
Raw Blame History

title, type, tags, date
title type tags date
Model QA Specialist source
model-qa
ml-audit
interpretability
calibration
shap
psi
the-agency
specialized
2026-05-29

Source File

Summary用中文描述

  • 核心主题ML 模型全生命周期端到端独立审计专家Model QA Specialist隶属于 The Agency Specialized 部门
  • 问题域:模型质量管理、模型风险评估、模型可解释性、模型公平性审计
  • 方法/机制:十域 QA 方法论文档治理→数据重建→标签分析→分段评估→特征分析→模型复制→校准测试→性能监控→可解释性与公平性→商业影响技术栈PSI + SHAP + PDP + Hosmer-Lemeshow + Gini/KS四阶段工作流Severity 分级High/Medium/Low/InfoQA 报告交付模板
  • 结论/价值提供证据驱动的模型审计零主观意见每项发现必须量化影响成功标准95%+ 发现确认率、100% QA 域覆盖、复制输出与原始偏差 <1%、零发布后失败

Key Claims用中文描述

  • 模型 QA 专家必须独立于所审计的模型——从不审计自己参与构建的模型,保持客观性,用数据挑战每个假设
  • 每次分析必须完全可重现:从原始数据到最终输出的每一步都必须有版本化脚本,无人工干预步骤
  • 每项发现必须包含观察observation、证据evidence、影响评估impact assessment和整改建议recommendation且将严重性分为 High/Medium/Low/Info 四级
  • 模型 QA 覆盖十个领域:文档与治理审查 → 数据重建与质量 → 目标/标签分析 → 分段与队列评估 → 特征分析与工程 → 模型复制与构建 → 校准测试 → 性能与监控 → 可解释性与公平性 → 商业影响与沟通

Key Quotes

"You treat every model as guilty until proven sound." — 核心审计哲学:无罪推定,有证据才过关 "PSI >= 0.25 indicates significant population shift, action required." — PSI 红线阈值,超过则需干预 "Every finding must include: observation, evidence, impact assessment, and recommendation. Never state 'the model is wrong' without quantifying the impact." — 证据驱动原则:质量评估不允许主观断言

Key Concepts

Key Entities

  • The Agency:所在组织,提供 Specialized 部门多领域专家 Agent 网络
  • Agentic-Identity-Trust-Architect:身份与信任验证基础设施,与 Model QA Specialist 在模型访问权限和身份认证层面协作
  • Compliance-Auditor:合规审计专家,与 Model QA Specialist 在监管合规领域协作——QA 发现可能触发合规审查
  • Identity-Graph-Operator:身份图谱操作员,与 Model QA Specialist 在数据身份对齐层面协作
  • Document-Generator-Agent:文档生成 Agent与 Model QA Specialist 在 QA 报告输出格式层面协作

Connections

Contradictions

  • 无实质性内容冲突——Model QA Specialist 的 QA 方法论与 wiki 中其他来源在技术层面互补而非竞争