55 lines
2.8 KiB
Markdown
55 lines
2.8 KiB
Markdown
---
|
||
title: "Champion-Challenger Framework"
|
||
type: concept
|
||
tags: [model-evaluation, model-deployment, champion-challenger, model-governance]
|
||
sources:
|
||
- specialized-model-qa
|
||
last_updated: 2026-05-29
|
||
---
|
||
|
||
## Definition
|
||
|
||
Champion-Challenger 框架(冠军-挑战者框架)是一种系统化的模型替代评估方法:在生产环境保持当前模型(Champion)运行的同时,引入新候选模型(Challenger)并行评分,通过量化对比决定是否将 Challenger 升级为新的 Champion。核心目标:在保证业务稳定性的前提下,以数据驱动的方式持续提升模型质量。
|
||
|
||
## Core Mechanics
|
||
|
||
### Shadow Mode Deployment(影子模式)
|
||
- Challenger 模型在生产流量上实时评分,但**不实际影响决策**
|
||
- 所有输出被记录但不触发行动
|
||
- 优势:无需 A/B 分流风险,收集真实分布数据
|
||
|
||
### A/B Split(分流测试)
|
||
- 将生产流量按比例分配给 Champion 和 Challenger
|
||
- Challenger 的预测直接触发实际决策
|
||
- 适用场景:需要真实业务反馈且风险可控时
|
||
|
||
### Multi-Challenger Ranking
|
||
- 同时存在多个 Challenger 时,按以下优先级评估:
|
||
1. **统计显著性**:AUC/KS 提升是否有统计意义(DeLong test)
|
||
2. **业务影响**:性能提升的绝对业务价值(Revenue/Cost/Conversion)
|
||
3. **稳定性**:Challenger 在各子群体和时间窗口上的表现一致性
|
||
4. **可解释性**:SHAP 特征重要性是否发生重大结构性变化
|
||
|
||
## Model QA 中的应用
|
||
|
||
Model QA Specialist 使用 Champion-Challenger 框架执行以下审计:
|
||
1. **基准建立**:记录 Champion 模型的 AUC/Gini/KS 基准值和跨切片表现
|
||
2. **Challenger 评估**:对候选模型进行全 10 域审计,不限于性能指标
|
||
3. **迁移决策**:只有 Challenger 在**所有关键域**达到或超越 Champion 时才建议迁移
|
||
4. **回滚计划**:每次 Challenger 上线必须有可执行的回滚方案
|
||
|
||
## Relationship
|
||
|
||
- **依赖** [[Discrimination-Metrics]]:AUC/Gini/KS 是量化 Champion vs Challenger 差异的核心指标
|
||
- **依赖** [[Calibration-Testing]]:Hosmer-Lemeshow 检验确保 Challenger 在各子群体上的校准稳定性
|
||
- **依赖** [[Population-Stability-Index]]:PSI 监控 Challenger 在生产分布上的稳定性
|
||
- **依赖** [[SHAP]]:SHAP 对比分析 Challenger vs Champion 的特征贡献结构变化
|
||
- **支撑** [[specialized-model-qa]](Source):Model QA Specialist 性能与监控步骤中的基准对比工具
|
||
|
||
## Key Insights
|
||
|
||
- **不只看 AUC**:Champion 升级决策必须综合考虑性能、公平性、校准和业务影响
|
||
- **时间窗口**:必须收集足够长时间(至少一个业务周期)的 Challenger 数据
|
||
- **灰度发布**:避免一次性全量切换,先小比例验证再扩大
|
||
- **监管合规**:金融/医疗等受监管行业的模型更换须符合模型变更治理流程
|