nexus/wiki/concepts/Champion-Challenger.md

---
title: "Champion-Challenger Framework"
type: concept
tags: [model-evaluation, model-deployment, champion-challenger, model-governance]
sources:
  - specialized-model-qa
last_updated: 2026-05-29
---

## Definition

Champion-Challenger 框架（冠军-挑战者框架）是一种系统化的模型替代评估方法：在生产环境保持当前模型（Champion）运行的同时，引入新候选模型（Challenger）并行评分，通过量化对比决定是否将 Challenger 升级为新的 Champion。核心目标：在保证业务稳定性的前提下，以数据驱动的方式持续提升模型质量。

## Core Mechanics

### Shadow Mode Deployment（影子模式）
- Challenger 模型在生产流量上实时评分，但**不实际影响决策**
- 所有输出被记录但不触发行动
- 优势：无需 A/B 分流风险，收集真实分布数据

### A/B Split（分流测试）
- 将生产流量按比例分配给 Champion 和 Challenger
- Challenger 的预测直接触发实际决策
- 适用场景：需要真实业务反馈且风险可控时

### Multi-Challenger Ranking
- 同时存在多个 Challenger 时，按以下优先级评估：
  1. **统计显著性**：AUC/KS 提升是否有统计意义（DeLong test）
  2. **业务影响**：性能提升的绝对业务价值（Revenue/Cost/Conversion）
  3. **稳定性**：Challenger 在各子群体和时间窗口上的表现一致性
  4. **可解释性**：SHAP 特征重要性是否发生重大结构性变化

## Model QA 中的应用

Model QA Specialist 使用 Champion-Challenger 框架执行以下审计：
1. **基准建立**：记录 Champion 模型的 AUC/Gini/KS 基准值和跨切片表现
2. **Challenger 评估**：对候选模型进行全 10 域审计，不限于性能指标
3. **迁移决策**：只有 Challenger 在**所有关键域**达到或超越 Champion 时才建议迁移
4. **回滚计划**：每次 Challenger 上线必须有可执行的回滚方案

## Relationship

- **依赖** [[Discrimination-Metrics]]：AUC/Gini/KS 是量化 Champion vs Challenger 差异的核心指标
- **依赖** [[Calibration-Testing]]：Hosmer-Lemeshow 检验确保 Challenger 在各子群体上的校准稳定性
- **依赖** [[Population-Stability-Index]]：PSI 监控 Challenger 在生产分布上的稳定性
- **依赖** [[SHAP]]：SHAP 对比分析 Challenger vs Champion 的特征贡献结构变化
- **支撑** [[specialized-model-qa]]（Source）：Model QA Specialist 性能与监控步骤中的基准对比工具

## Key Insights

- **不只看 AUC**：Champion 升级决策必须综合考虑性能、公平性、校准和业务影响
- **时间窗口**：必须收集足够长时间（至少一个业务周期）的 Challenger 数据
- **灰度发布**：避免一次性全量切换，先小比例验证再扩大
- **监管合规**：金融/医疗等受监管行业的模型更换须符合模型变更治理流程