Files
nexus/wiki/concepts/Champion-Challenger.md
2026-05-03 05:42:12 +08:00

2.8 KiB
Raw Blame History

title, type, tags, sources, last_updated
title type tags sources last_updated
Champion-Challenger Framework concept
model-evaluation
model-deployment
champion-challenger
model-governance
specialized-model-qa
2026-05-29

Definition

Champion-Challenger 框架(冠军-挑战者框架是一种系统化的模型替代评估方法在生产环境保持当前模型Champion运行的同时引入新候选模型Challenger并行评分通过量化对比决定是否将 Challenger 升级为新的 Champion。核心目标在保证业务稳定性的前提下以数据驱动的方式持续提升模型质量。

Core Mechanics

Shadow Mode Deployment影子模式

  • Challenger 模型在生产流量上实时评分,但不实际影响决策
  • 所有输出被记录但不触发行动
  • 优势:无需 A/B 分流风险,收集真实分布数据

A/B Split分流测试

  • 将生产流量按比例分配给 Champion 和 Challenger
  • Challenger 的预测直接触发实际决策
  • 适用场景:需要真实业务反馈且风险可控时

Multi-Challenger Ranking

  • 同时存在多个 Challenger 时,按以下优先级评估:
    1. 统计显著性AUC/KS 提升是否有统计意义DeLong test
    2. 业务影响性能提升的绝对业务价值Revenue/Cost/Conversion
    3. 稳定性Challenger 在各子群体和时间窗口上的表现一致性
    4. 可解释性SHAP 特征重要性是否发生重大结构性变化

Model QA 中的应用

Model QA Specialist 使用 Champion-Challenger 框架执行以下审计:

  1. 基准建立:记录 Champion 模型的 AUC/Gini/KS 基准值和跨切片表现
  2. Challenger 评估:对候选模型进行全 10 域审计,不限于性能指标
  3. 迁移决策:只有 Challenger 在所有关键域达到或超越 Champion 时才建议迁移
  4. 回滚计划:每次 Challenger 上线必须有可执行的回滚方案

Relationship

  • 依赖 Discrimination-MetricsAUC/Gini/KS 是量化 Champion vs Challenger 差异的核心指标
  • 依赖 Calibration-TestingHosmer-Lemeshow 检验确保 Challenger 在各子群体上的校准稳定性
  • 依赖 Population-Stability-IndexPSI 监控 Challenger 在生产分布上的稳定性
  • 依赖 SHAPSHAP 对比分析 Challenger vs Champion 的特征贡献结构变化
  • 支撑 specialized-model-qaSourceModel QA Specialist 性能与监控步骤中的基准对比工具

Key Insights

  • 不只看 AUCChampion 升级决策必须综合考虑性能、公平性、校准和业务影响
  • 时间窗口:必须收集足够长时间(至少一个业务周期)的 Challenger 数据
  • 灰度发布:避免一次性全量切换,先小比例验证再扩大
  • 监管合规:金融/医疗等受监管行业的模型更换须符合模型变更治理流程