Files
nexus/wiki/concepts/Champion-Challenger.md
2026-05-03 05:42:12 +08:00

55 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Champion-Challenger Framework"
type: concept
tags: [model-evaluation, model-deployment, champion-challenger, model-governance]
sources:
- specialized-model-qa
last_updated: 2026-05-29
---
## Definition
Champion-Challenger 框架(冠军-挑战者框架是一种系统化的模型替代评估方法在生产环境保持当前模型Champion运行的同时引入新候选模型Challenger并行评分通过量化对比决定是否将 Challenger 升级为新的 Champion。核心目标在保证业务稳定性的前提下以数据驱动的方式持续提升模型质量。
## Core Mechanics
### Shadow Mode Deployment影子模式
- Challenger 模型在生产流量上实时评分,但**不实际影响决策**
- 所有输出被记录但不触发行动
- 优势:无需 A/B 分流风险,收集真实分布数据
### A/B Split分流测试
- 将生产流量按比例分配给 Champion 和 Challenger
- Challenger 的预测直接触发实际决策
- 适用场景:需要真实业务反馈且风险可控时
### Multi-Challenger Ranking
- 同时存在多个 Challenger 时,按以下优先级评估:
1. **统计显著性**AUC/KS 提升是否有统计意义DeLong test
2. **业务影响**性能提升的绝对业务价值Revenue/Cost/Conversion
3. **稳定性**Challenger 在各子群体和时间窗口上的表现一致性
4. **可解释性**SHAP 特征重要性是否发生重大结构性变化
## Model QA 中的应用
Model QA Specialist 使用 Champion-Challenger 框架执行以下审计:
1. **基准建立**:记录 Champion 模型的 AUC/Gini/KS 基准值和跨切片表现
2. **Challenger 评估**:对候选模型进行全 10 域审计,不限于性能指标
3. **迁移决策**:只有 Challenger 在**所有关键域**达到或超越 Champion 时才建议迁移
4. **回滚计划**:每次 Challenger 上线必须有可执行的回滚方案
## Relationship
- **依赖** [[Discrimination-Metrics]]AUC/Gini/KS 是量化 Champion vs Challenger 差异的核心指标
- **依赖** [[Calibration-Testing]]Hosmer-Lemeshow 检验确保 Challenger 在各子群体上的校准稳定性
- **依赖** [[Population-Stability-Index]]PSI 监控 Challenger 在生产分布上的稳定性
- **依赖** [[SHAP]]SHAP 对比分析 Challenger vs Champion 的特征贡献结构变化
- **支撑** [[specialized-model-qa]]SourceModel QA Specialist 性能与监控步骤中的基准对比工具
## Key Insights
- **不只看 AUC**Champion 升级决策必须综合考虑性能、公平性、校准和业务影响
- **时间窗口**:必须收集足够长时间(至少一个业务周期)的 Challenger 数据
- **灰度发布**:避免一次性全量切换,先小比例验证再扩大
- **监管合规**:金融/医疗等受监管行业的模型更换须符合模型变更治理流程