Files
nexus/wiki/concepts/Fairness-Audit.md
2026-05-03 05:42:12 +08:00

2.9 KiB
Raw Blame History

title, type, tags, sources, last_updated
title type tags sources last_updated
Fairness Audit concept
model-evaluation
fairness
bias
ml-ethics
model-governance
specialized-model-qa
2026-05-29

Definition

公平性审计Fairness Audit是 ML 模型审计中评估模型是否对不同受保护群体protected groups产生系统性歧视的过程。核心目标识别和量化模型预测中基于种族、性别、年龄、宗教、国籍等受保护属性的不公平差异确保模型符合伦理规范和监管要求。

Core Metrics

Demographic Parity人口统计均等

  • 要求:模型的正预测率在各群体间相等
  • 公式:P(\hat{Y}=1|A=0) = P(\hat{Y}=1|A=1)
  • 也称为Statistical Parity, Independence Criterion

Equalized Odds均等化赔率

  • 要求:在相同真实标签条件下,各群体的预测分布相等
  • 公式:$P(\hat{Y}=1|A=0,Y=y) = P(\hat{Y}=1|A=1,Y=y)$for y \in \{0,1\}
  • 比 Demographic Parity 更严格,同时要求 TPR 和 FPR 在各群体间相等

Disparate Impact Ratio差异影响比

  • DIR = \frac{P(\hat{Y}=1|A=\text{minority})}{P(\hat{Y}=1|A=\text{majority})}
  • 4/5 规则DIR < 0.8 通常视为存在差异影响

Calibration Across Groups

  • 在各受保护群体上分别验证预测概率校准性
  • 确保高风险决策(贷款拒绝、保险定价)不会系统性低估某群体

Model QA 中的应用

Model QA Specialist 执行以下公平性审计步骤:

  1. 受保护属性识别:确认模型决策涉及哪些受保护特征(法律/道德/业务角度)
  2. Baseline 指标计算:在全人群上计算 AUC/KS/Gini 作为基准
  3. 分层指标对比:在受保护群体上分别计算性能指标,量化差距
  4. 差异影响评估DIR < 0.8 则标记为潜在歧视,需进一步调查
  5. 因果分析区分相关关系Correlation与因果效应Causation避免虚假公平性
  6. 补救建议Pre-processing重采样/重加权)/ In-processing对抗训练/约束优化)/ Post-processing阈值调整

Relationship

  • 依赖 Discrimination-Metrics:公平性审计首先建立在判别能力评估之上
  • 依赖 SHAPSHAP 贡献分析揭示哪些特征驱动了跨群体差异
  • 依赖 Calibration-Testing:跨群体校准是公平性决策的基础
  • 支撑 specialized-model-qaSourceModel QA Specialist 的可解释性与公平性审计步骤核心工具

Key Limitations

  • 公平性指标不可同时最优Demographic Parity 与 Equalized Odds 在一般情况下不可同时满足Impossibility Theorem
  • 代理变量问题:直接排除受保护属性后,模型仍可能通过代理变量(如邮编→种族)歧视
  • 数据不平衡:受保护群体的稀缺样本可能导致统计结论不可靠
  • 监管框架差异:欧盟 AI Act / 美国 EEOC / 巴塞尔协议对公平性要求各不相同