Update nexus wiki content

2026-05-03 05:42:06 +08:00
parent 90f3811b83
commit 111bc65b7b
707 changed files with 32306 additions and 7289 deletions
--- a/wiki/concepts/Champion-Challenger.md
+++ b/wiki/concepts/Champion-Challenger.md
@@ -0,0 +1,54 @@
+---
+title: "Champion-Challenger Framework"
+type: concept
+tags: [model-evaluation, model-deployment, champion-challenger, model-governance]
+sources:
+  - specialized-model-qa
+last_updated: 2026-05-29
+---
+
+## Definition
+
+Champion-Challenger 框架（冠军-挑战者框架）是一种系统化的模型替代评估方法：在生产环境保持当前模型（Champion）运行的同时，引入新候选模型（Challenger）并行评分，通过量化对比决定是否将 Challenger 升级为新的 Champion。核心目标：在保证业务稳定性的前提下，以数据驱动的方式持续提升模型质量。
+
+## Core Mechanics
+
+### Shadow Mode Deployment（影子模式）
+- Challenger 模型在生产流量上实时评分，但**不实际影响决策**
+- 所有输出被记录但不触发行动
+- 优势：无需 A/B 分流风险，收集真实分布数据
+
+### A/B Split（分流测试）
+- 将生产流量按比例分配给 Champion 和 Challenger
+- Challenger 的预测直接触发实际决策
+- 适用场景：需要真实业务反馈且风险可控时
+
+### Multi-Challenger Ranking
+- 同时存在多个 Challenger 时，按以下优先级评估：
+  1. **统计显著性**：AUC/KS 提升是否有统计意义（DeLong test）
+  2. **业务影响**：性能提升的绝对业务价值（Revenue/Cost/Conversion）
+  3. **稳定性**：Challenger 在各子群体和时间窗口上的表现一致性
+  4. **可解释性**：SHAP 特征重要性是否发生重大结构性变化
+
+## Model QA 中的应用
+
+Model QA Specialist 使用 Champion-Challenger 框架执行以下审计：
+1. **基准建立**：记录 Champion 模型的 AUC/Gini/KS 基准值和跨切片表现
+2. **Challenger 评估**：对候选模型进行全 10 域审计，不限于性能指标
+3. **迁移决策**：只有 Challenger 在**所有关键域**达到或超越 Champion 时才建议迁移
+4. **回滚计划**：每次 Challenger 上线必须有可执行的回滚方案
+
+## Relationship
+
+- **依赖** [[Discrimination-Metrics]]：AUC/Gini/KS 是量化 Champion vs Challenger 差异的核心指标
+- **依赖** [[Calibration-Testing]]：Hosmer-Lemeshow 检验确保 Challenger 在各子群体上的校准稳定性
+- **依赖** [[Population-Stability-Index]]：PSI 监控 Challenger 在生产分布上的稳定性
+- **依赖** [[SHAP]]：SHAP 对比分析 Challenger vs Champion 的特征贡献结构变化
+- **支撑** [[specialized-model-qa]]（Source）：Model QA Specialist 性能与监控步骤中的基准对比工具
+
+## Key Insights
+
+- **不只看 AUC**：Champion 升级决策必须综合考虑性能、公平性、校准和业务影响
+- **时间窗口**：必须收集足够长时间（至少一个业务周期）的 Challenger 数据
+- **灰度发布**：避免一次性全量切换，先小比例验证再扩大
+- **监管合规**：金融/医疗等受监管行业的模型更换须符合模型变更治理流程