nexus/wiki/concepts/Champion-Challenger.md at b40abbcd473a7093d8261e212e3d6de97c1e516a

ishenwei/nexus

Fork 0

Files

weishen 111bc65b7b Update nexus wiki content

2026-05-03 05:42:12 +08:00

2.8 KiB

Raw Blame History

title, type, tags, sources, last_updated

title

type

Definition

Champion-Challenger 框架（冠军-挑战者框架）是一种系统化的模型替代评估方法：在生产环境保持当前模型（Champion）运行的同时，引入新候选模型（Challenger）并行评分，通过量化对比决定是否将 Challenger 升级为新的 Champion。核心目标：在保证业务稳定性的前提下，以数据驱动的方式持续提升模型质量。

Core Mechanics

Shadow Mode Deployment（影子模式）

Challenger 模型在生产流量上实时评分，但不实际影响决策
所有输出被记录但不触发行动
优势：无需 A/B 分流风险，收集真实分布数据

A/B Split（分流测试）

将生产流量按比例分配给 Champion 和 Challenger
Challenger 的预测直接触发实际决策
适用场景：需要真实业务反馈且风险可控时

Multi-Challenger Ranking

同时存在多个 Challenger 时，按以下优先级评估：
1. 统计显著性：AUC/KS 提升是否有统计意义（DeLong test）
2. 业务影响：性能提升的绝对业务价值（Revenue/Cost/Conversion）
3. 稳定性：Challenger 在各子群体和时间窗口上的表现一致性
4. 可解释性：SHAP 特征重要性是否发生重大结构性变化

Model QA 中的应用

Model QA Specialist 使用 Champion-Challenger 框架执行以下审计：

基准建立：记录 Champion 模型的 AUC/Gini/KS 基准值和跨切片表现
Challenger 评估：对候选模型进行全 10 域审计，不限于性能指标
迁移决策：只有 Challenger 在所有关键域达到或超越 Champion 时才建议迁移
回滚计划：每次 Challenger 上线必须有可执行的回滚方案

Relationship

依赖 Discrimination-Metrics：AUC/Gini/KS 是量化 Champion vs Challenger 差异的核心指标
依赖 Calibration-Testing：Hosmer-Lemeshow 检验确保 Challenger 在各子群体上的校准稳定性
依赖 Population-Stability-Index：PSI 监控 Challenger 在生产分布上的稳定性
依赖 SHAP：SHAP 对比分析 Challenger vs Champion 的特征贡献结构变化
支撑 specialized-model-qa（Source）：Model QA Specialist 性能与监控步骤中的基准对比工具

Key Insights

不只看 AUC：Champion 升级决策必须综合考虑性能、公平性、校准和业务影响
时间窗口：必须收集足够长时间（至少一个业务周期）的 Challenger 数据
灰度发布：避免一次性全量切换，先小比例验证再扩大
监管合规：金融/医疗等受监管行业的模型更换须符合模型变更治理流程

2.8 KiB Raw Blame History Unescape Escape