Sync: add model evaluation and training notes

2026-04-25 08:52:32 +08:00
parent 77fae85f60
commit 6006601b6b
16 changed files with 2124 additions and 5 deletions
--- a/Project/fonrey/UI_SYSTEM/UI_SYSTEM.md
+++ b/Project/fonrey/UI_SYSTEM/UI_SYSTEM.md
--- a/wiki/concepts/ADDIE-Model.md
+++ b/wiki/concepts/ADDIE-Model.md
@@ -0,0 +1,38 @@
+---
+title: "ADDIE 模型"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+## Definition
+
+ADDIE 模型是企业培训课程开发的系统性框架，包含五个阶段：
+
+1. **Analysis（分析）**：培训需求分析——组织诊断、能力差距识别、培训 ROI 估算、需求优先级排序
+2. **Design（设计）**：学习目标设计——基于 Bloom 认知分类定义可衡量的学习成果
+3. **Development（开发）**：课程内容开发——微课、案例、练习、题库、课件
+4. **Implementation（实施）**：培训交付——线上/线下/混合学习交付方式
+5. **Evaluation（评估）**：效果评估——基于 Kirkpatrick 四级模型评估培训效果
+
+## Aliases
+- ADDIE
+- ADDIE Model
+- ADDIE 教学设计模型
+- 分析-设计-开发-实施-评估
+
+## Key Characteristics
+
+- **每个阶段有明确交付物**：分析报告、教学设计文档、课程包、培训执行计划、效果评估报告
+- **迭代性**：实践中通常循环迭代，而非严格线性执行
+- **系统性**：确保培训项目从需求到效果有完整闭环
+
+## Related Concepts
+
+- [[Kirkpatrick-四级评估]]：ADDIE 的最后一步（Evaluation）的具体方法论
+- [[Bloom-认知分类]]：ADDIE Design 阶段学习目标设计的认知层次框架
+- [[Kolb-体验式学习圈]]：与 ADDIE 并行的另一学习设计框架，侧重体验循环
+
+## Source
+
+- [[corporate-training-designer]]
--- a/wiki/concepts/Bloom-认知分类.md
+++ b/wiki/concepts/Bloom-认知分类.md
@@ -0,0 +1,40 @@
+---
+title: "Bloom 认知分类"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+## Definition
+
+Bloom 认知分类（Bloom's Taxonomy）是由 Benjamin Bloom 等人于 1956 年提出的教育目标分类框架，将学习认知过程分为六个递进层次：
+
+1. **Remember（记忆）**：识记、回忆基本事实——定义、列表、复述
+2. **Understand（理解）**：解释概念含义——总结、分类、解释原因
+3. **Apply（应用）**：将知识运用于新情境——执行、操作、解决问题
+4. **Analyze（分析）**：拆解复杂结构——区分、组织、归因
+5. **Evaluate（评价）**：基于标准做判断——检查、批判、论证
+6. **Create（创造）**：整合元素形成新结构——设计、建构、发明
+
+## Aliases
+- Bloom's Taxonomy
+- Bloom 认知分类
+- Bloom 教育目标分类
+- 布鲁姆认知分类
+
+## Key Characteristics
+
+- **递进性**：从低阶思维（记忆/理解）到高阶思维（分析/评价/创造）
+- **教学设计应用**：每个层次对应不同的学习活动和评估方式
+  - 低阶目标 → 讲授、阅读、测验
+  - 高阶目标 → 案例分析、项目实践、创作展示
+- **逆向设计**：从期望的认知层次出发，设计学习活动和评估
+
+## Related Concepts
+
+- [[ADDIE-Model]]：Bloom 分类是 ADDIE Design 阶段学习目标定义的核心工具
+- [[Kirkpatrick-四级评估]]：学习活动的认知层次影响 Level 2 评估方法的选择
+
+## Source
+
+- [[corporate-training-designer]]
--- a/wiki/concepts/Calibration-Testing.md
+++ b/wiki/concepts/Calibration-Testing.md
@@ -0,0 +1,78 @@
+---
+title: "Calibration Testing"
+type: concept
+tags: [model-evaluation, probability-calibration, model-quality]
+last_updated: 2026-04-25
+---
+
+## Definition
+
+概率校准（Calibration Testing）验证模型输出的预测概率与实际发生的频率是否一致。一个校准良好的分类器：若它预测某事件概率为 80%，则该事件实际发生的频率应接近 80%。
+
+## Core Methods
+
+### Hosmer-Lemeshow Test
+- 将预测概率分组（默认10组），比较每组观测正例数与期望正例数
+- 统计量：$\chi^2 = \sum \frac{(observed - expected)^2}{expected(1 - expected/n)}$
+- 自由度：组数 - 2；p-value < 0.05 → 拒绝原假设（校准差）
+- **局限性**：对样本量敏感，分组方式不同结果不同
+
+### Brier Score
+- $BS = \frac{1}{N}\sum(p_i - y_i)^2$，取值 [0, 0.25]（二分类）
+- 同时衡量校准（calibration）和区分度（refinement）
+- 值越低越好，可分解为：$BS = Calibration^2 + Refinement$
+- **优势**：无需分组，对样本量稳健，可跨模型比较
+
+### Reliability Diagram（可靠性图）
+- 将预测概率分箱（bin），绘制实际正例率 vs 预测概率
+- 理想情况为 45° 对角线；S 形曲线表示欠/过度预测
+- 视觉诊断工具，适合识别系统性校准偏差
+
+### Expected Calibration Error (ECE)
+- 加权平均每箱预测概率与实际频率的绝对差
+- $ECE = \sum_b \frac{|b|}{n} |acc(b) - conf(b)|$
+- 量化校准误差，便于跨模型对比
+
+## Usage
+
+```python
+# Hosmer-Lemeshow
+from scipy.stats import chi2
+
+def hosmer_lemshow_test(y_true, y_pred, groups=10):
+    data = pd.DataFrame({"y": y_true, "p": y_pred})
+    data["bucket"] = pd.qcut(data["p"], groups, duplicates="drop")
+    agg = data.groupby("bucket", observed=True).agg(
+        n=("y", "count"), observed=("y", "sum"), expected=("p", "sum")
+    )
+    hl_stat = (((agg["observed"] - agg["expected"])**2) /
+               (agg["expected"] * (1 - agg["expected"]/agg["n"]))).sum()
+    dof = len(agg) - 2
+    p_value = 1 - chi2.cdf(hl_stat, dof)
+    return {"HL_statistic": round(hl_stat, 4), "p_value": round(p_value, 6), "calibrated": p_value >= 0.05}
+
+# Brier Score
+from sklearn.metrics import brier_score_loss
+bs = brier_score_loss(y_true, y_pred)
+```
+
+## Model QA 中的应用
+
+Model QA Specialist 执行以下校准审计：
+1. **跨子群体校准**：在年龄/地区/收入等子群体上分别测试，发现整体指标掩盖的局部校准问题
+2. **时间窗口稳定性**：跨 OOT（Out-of-Time）窗口测试校准稳定性，识别时间漂移
+3. **分布偏移下的校准**：在压力场景（population shift）下测试，评估模型鲁棒性
+4. **决策阈值校准**：根据业务决策阈值（如 p > 0.6 触发行动），评估该阈值处的校准质量
+
+## Relationship
+
+- **依赖** [[Discrimination-Metrics]]：先验证模型有区分能力（AUC/Gini），再讨论校准才有意义
+- **依赖** [[SHAP]]：SHAP 解释"哪个特征导致校准偏差"，支撑诊断方向
+- **依赖** [[Population-Stability-Index]]：PSI 捕捉特征分布漂移，漂移是校准失效的根本原因之一
+- **支撑** [[specialized-model-qa]]（Source）：Model QA Specialist 的核心审计步骤之一
+
+## Key Insights
+
+- **High AUC ≠ Well Calibrated**：模型可以高区分度但低校准（如逻辑回归自然校准，神经网络往往过度自信）
+- **业务影响**：校准误差 180bps（0.18）在 decile 10 可能影响 12% 的资产组合
+- **监管要求**：巴塞尔协议/IFRS 9/CCAR 等监管框架明确要求信用风险模型的概率校准
--- a/wiki/concepts/Discrimination-Metrics.md
+++ b/wiki/concepts/Discrimination-Metrics.md
@@ -0,0 +1,76 @@
+---
+title: "Discrimination Metrics"
+type: concept
+tags: [model-evaluation, classification-metrics, model-performance]
+last_updated: 2026-04-25
+---
+
+## Definition
+
+判别能力指标（Discrimination Metrics）衡量模型区分正例与负例的能力——给定一个随机正例和一个随机负例，模型有多大概率给正例更高的分数。区别于校准（衡量概率准确性），判别度衡量排序正确性。
+
+## Core Metrics
+
+### AUC (Area Under the ROC Curve)
+- ROC 曲线下面积，取值 [0.5, 1.0]
+- 0.5 = 随机猜测，1.0 = 完美区分
+- 解读：给定随机正例和随机负例，有 AUC 概率给正例更高分数
+- **优势**：阈值无关，对类别不平衡相对稳健
+
+### Gini Coefficient
+- $Gini = 2 \times AUC - 1$
+- 取值 [0, 1.0]，与 AUC 线性等价
+- 金融行业常用（信用卡评分、信贷风控）
+- 监管报告标准指标
+
+### KS Statistic (Kolmogorov-Smirnov)
+- 两个累积分布函数（正例 vs 负例）之间的最大垂直距离
+- $KS = \max_t |F_{pos}(t) - F_{neg}(t)|$
+- 取值 [0, 1.0]；KS > 0.2 通常认为有区分能力
+- **优势**：不依赖阈值，提供最佳分割点位置信息
+
+### Additional Metrics
+| Metric | Formula | 适用场景 |
+|--------|---------|---------|
+| F1 Score | $2 \times \frac{precision \times recall}{precision + recall}$ | 类别不平衡 |
+| RMSE | $\sqrt{\frac{1}{n}\sum(y_i - \hat{y}_i)^2}$ | 回归模型 |
+| Log Loss | $-\frac{1}{N}\sum[y_i \log p_i + (1-y_i)\log(1-p_i)]$ | 概率质量 |
+
+## Usage
+
+```python
+from sklearn.metrics import roc_auc_score, f1_score
+from scipy.stats import ks_2samp
+
+def discrimination_report(y_true, y_score):
+    auc = roc_auc_score(y_true, y_score)
+    gini = 2 * auc - 1
+    ks_stat, ks_pval = ks_2samp(y_score[y_true == 1], y_score[y_true == 0])
+    return {
+        "AUC": round(auc, 4),
+        "Gini": round(gini, 4),
+        "KS": round(ks_stat, 4),
+        "KS_pvalue": round(ks_pval, 6),
+    }
+```
+
+## Model QA 中的应用
+
+Model QA Specialist 执行以下判别能力审计：
+1. **全数据切片分析**：在 Train/Validation/Test/OOT 四个数据切片上分别计算 AUC/Gini/KS
+2. **子群体性能**：在性别/年龄/地区等受保护属性上分别测试，发现公平性隐患
+3. **时间稳定性**：跨 OOT 窗口追踪 AUC/Gini 趋势，识别性能衰减
+4. **冠军-挑战者对比**：Proposed model vs. incumbent production model，量化相对提升
+
+## Relationship
+
+- **被依赖** [[Calibration-Testing]]：先确认判别能力（KS > 0.2, AUC > 0.7），再测试校准
+- **依赖** [[Population-Stability-Index]]：PSI 监控输入稳定性，判别指标监控输出健康度
+- **依赖** [[SHAP]]：判别指标提供"是否好"的答案，SHAP 解释"为什么"
+- **支撑** [[specialized-model-qa]]（Source）：Model QA Specialist 的核心性能评估步骤
+
+## Key Insights
+
+- **判别度 vs 校准**：高 AUC 模型仍可能在特定概率区间严重校准偏差；两者必须同时评估
+- **KS vs AUC**：KS 对尾部区分更敏感（抓坏人），AUC 对整体排序更均衡
+- **监管门槛**：金融风控通常要求 Gini > 0.4（相当于 AUC > 0.7）方可上线
--- a/wiki/concepts/Hosmer-Lemeshow-Test.md
+++ b/wiki/concepts/Hosmer-Lemeshow-Test.md
@@ -0,0 +1,91 @@
+---
+title: "Hosmer-Lemeshow Test"
+type: concept
+tags: [model-evaluation, calibration-testing, goodness-of-fit]
+last_updated: 2026-04-25
+---
+
+## Definition
+
+Hosmer-Lemeshow（HL）检验是一种评估二分类模型预测概率校准程度的拟合优度检验，通过比较预测概率分箱后的观测正例数与期望正例数，判断模型预测与实际结果之间是否存在显著差异。p-value < 0.05 时拒绝原假设（模型校准良好），认为模型存在显著的校准偏差。
+
+## Algorithm
+
+1. 将样本按预测概率从小到大分箱（默认 10 箱，或自定义 g 组）
+2. 对每箱计算：
+   - **观测正例数** $O_g = \sum_{i \in \text{group } g} y_i$
+   - **期望正例数** $E_g = \sum_{i \in \text{group } g} \hat{p}_i$
+   - **样本数** $n_g$
+3. 计算 HL 统计量：
+
+$$H = \sum_{g=1}^{G} \frac{(O_g - E_g)^2}{E_g (1 - E_g / n_g)}$$
+
+4. 自由度 $df = G - 2$（减去截距和斜率估计参数）
+5. 与 $\chi^2(df)$ 分布比较，$p = 1 - F_{H}(H)$
+
+## Interpretation
+
+```python
+from scipy.stats import chi2
+
+def hosmer_lemshow_test(y_true: pd.Series, y_pred: pd.Series, groups: int = 10) -> dict:
+    data = pd.DataFrame({"y": y_true, "p": y_pred})
+    data["bucket"] = pd.qcut(data["p"], groups, duplicates="drop")
+
+    agg = data.groupby("bucket", observed=True).agg(
+        n=("y", "count"),
+        observed=("y", "sum"),
+        expected=("p", "sum"),
+    )
+
+    hl_stat = (
+        ((agg["observed"] - agg["expected"])**2) /
+        (agg["expected"] * (1 - agg["expected"] / agg["n"]))
+    ).sum()
+
+    dof = len(agg) - 2
+    p_value = 1 - chi2.cdf(hl_stat, dof)
+
+    return {
+        "HL_statistic": round(hl_stat, 4),
+        "p_value": round(p_value, 6),
+        "calibrated": p_value >= 0.05,  # True = well calibrated
+        "dof": dof,
+        "groups_used": len(agg),
+    }
+```
+
+| p-value | 判读 |
+|---------|------|
+| ≥ 0.05 | 🟢 模型校准良好，无显著证据表明预测概率偏离实际频率 |
+| < 0.05 | 🔴 拒绝原假设，模型存在显著校准偏差 |
+
+## Limitations
+
+1. **分组方式敏感**：不同分箱数量/方法导致不同结果，10 等分是惯例但非最优
+2. **样本量敏感**：大样本下即使微小偏差也能导致显著 p-value（实际影响可能很小）
+3. **掩盖子群体问题**：整体通过 HL 检验不等于所有子群体都校准良好
+4. **序贯分组问题**：qcut 在重复值多时可能合并箱子，需检查 `groups_used`
+
+## Alternatives
+
+- **Brier Score**：无需分组，对样本量稳健，但只能给出误差量级而非定位
+- **Spiegelhalter's Z-test**：基于 Brier Score 的统计检验
+- **Reliability Curves**：可视化诊断，比 HL 检验提供更多信息
+- **Expected Calibration Error (ECE)**：量化平均校准误差，解释性更强
+
+## Model QA 中的应用
+
+Model QA Specialist 将 HL 检验用于：
+1. **模型上线前验证**：新模型上线必须通过 HL 检验（p ≥ 0.05）
+2. **定期监控**：在 OOT 窗口上重复执行，监控校准随时间恶化趋势
+3. **子群体分层测试**：在关键子群体（高风险/低风险/新客户）上分别执行
+4. **Champion-Challenger**：对比 champion model vs challenger model 的 HL 结果
+
+## Relationship
+
+- **被依赖** [[Calibration-Testing]]：HL 检验是 Calibration Testing 的核心统计工具之一
+- **依赖** [[Discrimination-Metrics]]：先确认模型有区分能力（AUC/Gini 达标），再讨论校准
+- **依赖** [[Population-Stability-Index]]：PSI 漂移往往是 HL 检验失败的前兆
+- **依赖** [[SHAP]]：HL 检验发现校准问题后，用 SHAP waterfall 诊断具体原因
+- **支撑** [[specialized-model-qa]]（Source）：Model QA Specialist 校准测试步骤的核心工具
--- a/wiki/concepts/Kirkpatrick-四级评估.md
+++ b/wiki/concepts/Kirkpatrick-四级评估.md
@@ -0,0 +1,32 @@
+---
+title: "Kirkpatrick 四级评估"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+## Definition
+
+Kirkpatrick 四级评估模型是衡量企业培训效果的标准框架，由 Donald Kirkpatrick 于 1959 年提出，分为四个层次：
+
+- **Level 1 — Reaction（反应）**：学员对培训的满意度调查——课程评分、讲师评分、NPS
+- **Level 2 — Learning（学习）**：知识与技能掌握程度——知识测验、技能实操评估、案例分析作业
+- **Level 3 — Behavior（行为）**：训后行为改变——30/60/90 天行为跟踪、上级观察、关键行为清单
+- **Level 4 — Results（结果）**：业务指标变化——营收、客户满意度、生产效率、员工留存率
+
+## Aliases
+- Kirkpatrick Model
+- Kirkpatrick 四级评估
+- Kirkpatrick 四层次评估
+- 培训效果评估模型
+
+## Key Characteristics
+
+- **逐级递进**：Level 1-2 较易测量，Level 3-4 需要更长周期和更复杂的数据收集
+- **业务导向**：Level 3-4 直接关联业务指标，是培训投资回报（ROI）的核心证明
+- **最低标准**：所有培训项目至少应评估到 Level 2（Learning）
+- **高投资标准**：领导力发展、关键岗位培训等高投资必须追踪到 Level 3（Behavior）
+
+## Source
+
+- [[corporate-training-designer]]
--- a/wiki/concepts/Kolb-体验式学习圈.md
+++ b/wiki/concepts/Kolb-体验式学习圈.md
@@ -0,0 +1,37 @@
+---
+title: "Kolb 体验式学习圈"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+## Definition
+
+Kolb 体验式学习圈（Kolb's Experiential Learning Cycle）由 David Kolb 于 1984 年提出，描述了一个四阶段的循环学习过程：
+
+1. **Concrete Experience（具体经验）**：全身心投入真实或模拟的体验
+2. **Reflective Observation（反思观察）**：从不同视角审视体验，思考发生了什么
+3. **Abstract Conceptualization（抽象概念化）**：从经验中提炼出理论、模型或框架
+4. **Active Experimentation（主动实验）**：将概念应用于新的实践场景，测试假设
+
+## Aliases
+- Kolb's Learning Cycle
+- Kolb 体验式学习
+- Kolb 学习圈
+- 体验式学习循环
+
+## Key Characteristics
+
+- **闭环性**：四个阶段首尾相连，形成持续改进的学习螺旋
+- **个性化**：不同学习者偏好不同阶段（有人偏经验型，有人偏反思型）
+- **主动学习**：强调"做中学"，而非被动接受知识
+- **应用场景**：沙盘模拟、角色扮演、剧本杀式培训、领导力发展项目
+
+## Relationship to Other Concepts
+
+- **与 ADDIE 模型**：体验式学习可作为 ADDIE Implementation 阶段的教学方法
+- **与 Kirkpatrick Level 3**：体验式学习的闭环特性天然支持训后行为改变的追踪
+
+## Source
+
+- [[corporate-training-designer]]
--- a/wiki/concepts/Partial-Dependence-Plots.md
+++ b/wiki/concepts/Partial-Dependence-Plots.md
@@ -0,0 +1,71 @@
+---
+title: "Partial Dependence Plots"
+type: concept
+tags: [model-interpretability, feature-analysis, model-visualization]
+last_updated: 2026-04-25
+---
+
+## Definition
+
+偏依赖图（Partial Dependence Plots，PDP）展示一个或两个特征与模型预测之间的边际关系——在控制其他特征后，该特征取不同值时模型输出的平均预测变化。核心假设：特征之间相对独立（独立PDP），否则需要 ICE 曲线（Individual Conditional Expectation）补充。
+
+## Core Types
+
+### 1D PDP（单特征）
+- 固定其他特征不动，在目标特征的取值范围内计算模型平均预测
+- 可视化：x 轴为特征值，y 轴为偏依赖值（边际预测效应）
+- 用于：验证特征方向是否符合业务预期（单调递增/递减/U形）
+
+### 2D PDP（特征交互）
+- 两个特征同时变化，展示交互效应对预测的联合影响
+- 用于：检测模型学习到的非预期特征交互（如 X₁ × X₂ 的非线性组合）
+
+### ICE Curves（Individual Conditional Expectation）
+- 每条线代表一个样本的偏依赖曲线（而非平均值）
+- 解决 PDP 掩盖个体异质性的问题
+- 与 PDP 结合：PDP 叠加 ICE 曲线，同时展示平均趋势和个体差异
+
+## Usage
+
+```python
+from sklearn.inspection import PartialDependenceDisplay
+
+# 1D PDP for single feature
+fig, ax = plt.subplots(figsize=(8, 5))
+PartialDependenceDisplay.from_estimator(
+    model, X, [feature_name],
+    grid_resolution=50, ax=ax
+)
+ax.set_title(f"Partial Dependence - {feature_name}")
+fig.savefig(f"pdp_{feature_name}.png", dpi=150)
+
+# 2D PDP for feature interaction
+fig, ax = plt.subplots(figsize=(8, 6))
+PartialDependenceDisplay.from_estimator(
+    model, X, [(feat_a, feat_b)], ax=ax
+)
+fig.savefig(f"pdp_interact_{feat_a}_x_{feat_b}.png", dpi=150)
+```
+
+## Model QA 中的应用
+
+Model QA Specialist 使用 PDP 进行以下审计：
+1. **方向性验证**：检查 PDP 曲线方向是否符合业务领域知识（如"收入↑ → 违约概率↓"）
+2. **非单调性检测**：识别模型在某些区间学习到的反直觉非单调关系
+3. **交互效应识别**：2D PDP 检测 top correlated feature pairs 的交互效应
+4. **跨时间稳定性**：对比 Train vs OOT 的 PDP 曲线，识别特征关系的时间漂移
+5. **SHAP 交叉验证**：PDP 验证边际方向，SHAP 验证精确归因，两者互补
+
+## Relationship
+
+- **依赖** [[SHAP]]：SHAP 提供精确特征归因，PDP 提供趋势可视化；PDP 曲线形状与 SHAP beeswarm 的分布吻合
+- **依赖** [[Population-Stability-Index]]：PSI 捕捉特征分布漂移，PDP 捕捉特征效应的变化，两者共同判断模型是否需要重训
+- **支撑** [[Calibration-Testing]]：PDP 揭示的非线性关系可能是校准问题的根源
+- **支撑** [[specialized-model-qa]]（Source）：Model QA Specialist 的特征分析核心工具
+
+## Key Limitations
+
+- **强交互效应**：当特征高度相关时，PDP 可能产生误导性结论（忽略其他特征的条件分布）
+- **异质性掩盖**：个体 ICE 曲线与平均 PDP 的差异反映异质性，忽略可能遗漏关键子群体
+- **分类变量**：需预先分箱，箱的划分方式影响结果解释
+- **高维特征**：超过 2 个特征的交互需用 SHAP interaction values 或 ALE plots
--- a/wiki/concepts/Population-Stability-Index.md
+++ b/wiki/concepts/Population-Stability-Index.md
@@ -0,0 +1,102 @@
+---
+title: "Population Stability Index"
+type: concept
+tags: [model-monitoring, feature-drift, model-governance]
+last_updated: 2026-04-25
+---
+
+## Definition
+
+群体稳定性指数（Population Stability Index，PSI）是衡量两个分布（通常是开发样本 vs 实际样本）之间差异的量化指标，广泛用于监控机器学习模型输入特征和输出评分的分布漂移，是模型生命周期管理的核心监控工具。
+
+## Algorithm
+
+$$\text{PSI} = \sum_{i=1}^{n} (act_i - exp_i) \times \ln\left(\frac{act_i}{exp_i}\right)$$
+
+其中：
+- $act_i$ = 实际（当前）样本在分箱中的占比
+- $exp_i$ = 期望（基准）样本在分箱中的占比
+- 使用 **Laplace smoothing**（加 1 平滑）避免除零
+
+## Interpretation Thresholds
+
+| PSI Range | 判读 | 建议行动 |
+|-----------|------|---------|
+| < 0.10 | 🟢 无显著漂移 | 无需操作 |
+| 0.10–0.25 | 🟡 中等漂移 | 调查原因，密切监控 |
+| ≥ 0.25 | 🔴 显著漂移 | **立即采取行动**，考虑重训 |
+
+## Implementation
+
+```python
+import numpy as np
+import pandas as pd
+
+def compute_psi(expected: pd.Series, actual: pd.Series, bins: int = 10) -> float:
+    """
+    Compute Population Stability Index between two distributions.
+    Interpretation:
+      < 0.10  → No significant shift (green)
+      0.10–0.25 → Moderate shift, investigation recommended (amber)
+      >= 0.25 → Significant shift, action required (red)
+    """
+    breakpoints = np.linspace(0, 100, bins + 1)
+    expected_pcts = np.percentile(expected.dropna(), breakpoints)
+
+    expected_counts = np.histogram(expected, bins=expected_pcts)[0]
+    actual_counts = np.histogram(actual, bins=expected_pcts)[0]
+
+    # Laplace smoothing
+    exp_pct = (expected_counts + 1) / (expected_counts.sum() + bins)
+    act_pct = (actual_counts + 1) / (actual_counts.sum() + bins)
+
+    psi = np.sum((act_pct - exp_pct) * np.log(act_pct / exp_pct))
+    return round(psi, 6)
+
+
+def variable_stability_report(
+    df: pd.DataFrame,
+    date_col: str,
+    variables: list[str],
+    psi_threshold: float = 0.25,
+) -> pd.DataFrame:
+    """Monthly stability report for model features."""
+    periods = sorted(df[date_col].unique())
+    baseline = df[df[date_col] == periods[0]]
+
+    results = []
+    for var in variables:
+        for period in periods[1:]:
+            current = df[df[date_col] == period]
+            psi = compute_psi(baseline[var], current[var])
+            results.append({
+                "variable": var, "period": period, "psi": psi,
+                "flag": "🔴" if psi >= psi_threshold else ("🟡" if psi >= 0.10 else "🟢"),
+            })
+
+    return pd.DataFrame(results).pivot_table(
+        index="variable", columns="period", values="psi"
+    ).round(4)
+```
+
+## Model QA 中的应用
+
+Model QA Specialist 将 PSI 应用于以下场景：
+1. **特征稳定性监控**：每月计算所有特征的 PSI，识别漂移最早的预警信号
+2. **评分分布监控**：模型输出的评分 PSI，检测整体预测分布变化
+3. **分段 PSI**：在子群体上分别计算，识别特定分段的漂移（整体 PSI 掩盖的局部问题）
+4. **重训触发器**：将 PSI ≥ 0.25 设为自动重训的硬触发条件
+
+## Relationship
+
+- **被依赖** [[SHAP]]：PSI 识别分布漂移，SHAP 分析漂移后的特征贡献变化
+- **被依赖** [[Discrimination-Metrics]]：PSI 漂移通常先于 AUC/Gini 下降出现，是预警指标
+- **被依赖** [[Calibration-Testing]]：特征分布漂移（PSI）是校准失效的根本原因之一
+- **支撑** [[specialized-model-qa]]（Source）：Model QA Specialist 的监控框架核心指标
+
+## Key Insights
+
+- **方向性陷阱**：PSI 仅反映分布差异大小，不反映变化方向（高→低 或 低→高 均为漂移）
+- **阈值依赖**：0.1/0.25 阈值是行业惯例，具体阈值应基于业务风险调整
+- **特征 vs 评分 PSI**：特征 PSI 先于评分 PSI 变化，是更敏感的早期预警
+- **监控频率**：生产模型应至少每月计算一次，关键业务模型建议每周甚至每日
--- a/wiki/concepts/SHAP.md
+++ b/wiki/concepts/SHAP.md
@@ -0,0 +1,70 @@
+---
+title: "SHAP (SHapley Additive exPlanations)"
+type: concept
+tags: [model-interpretability, feature-attribution, explainable-ai]
+last_updated: 2026-04-25
+---
+
+## Definition
+
+SHAP（SHapley Additive exPlanations）是一种基于博弈论 Shapley 值的模型可解释性框架，为每个特征的贡献提供统一的量化度量。通过计算每个特征在所有可能的特征组合中的边际贡献均值，SHAP 给出唯一且公平的归因值。
+
+## Core Concepts
+
+### Global Interpretability
+- **SHAP Summary Plot (Beeswarm)**：同时展示特征值方向和影响幅度的散点图，横轴为 SHAP 值，纵轴为特征，颜色编码特征值高低
+- **SHAP Bar Plot**：各特征 mean |SHAP| 排序，展示整体特征重要性
+- **应用场景**：与文档化特征理由对比，识别未在方法论文档中讨论但实际影响显著的"隐性特征"
+
+### Local Interpretability
+- **SHAP Waterfall Plot**：解释单个预测——从基础值（base value）出发，逐特征展示其推动预测的方向和幅度
+- **SHAP Force Plot**：可视化单个预测的特征贡献，常用于高风险决策解释
+- **应用场景**：边缘案例预测（top/bottom decile、误分类记录）的深度分析
+
+### SHAP Interaction Values
+- 检测特征之间的依赖和交互效应
+- 将总 SHAP 贡献分解为：主效应 + 交互效应
+- 用于识别模型学习到的非预期特征交互
+
+## Usage
+
+```python
+import shap
+
+explainer = shap.TreeExplainer(model)
+shap_values = explainer.shap_values(X)
+
+# Global: beeswarm
+shap.summary_plot(shap_values, X, show=False)
+plt.savefig("shap_beeswarm.png", dpi=150)
+
+# Global: bar
+shap.summary_plot(shap_values, X, plot_type="bar", show=False)
+plt.savefig("shap_importance.png", dpi=150)
+
+# Local: waterfall
+explanation = explainer(X.iloc[[idx]])
+shap.plots.waterfall(explanation[0], show=False)
+plt.savefig(f"shap_waterfall_{idx}.png", dpi=150)
+```
+
+## Model QA 中的应用
+
+Model QA Specialist 使用 SHAP 进行以下审计：
+1. **全局分析**：对比 SHAP 特征重要性与文档化特征理由，发现未记录的高贡献特征
+2. **PDP 交叉验证**：SHAP 分析结合 PDP 验证特征方向是否符合预期
+3. **局部解释**：边缘案例的 SHAP waterfall 揭示模型决策机制
+4. **稳定性监测**：跨时间窗口的 SHAP 排名变化反映特征重要性漂移
+
+## Relationship
+
+- **依赖** [[Population-Stability-Index]]：PSI 监测特征分布漂移，SHAP 监测特征贡献变化，两者结合才能完整评估模型健康度
+- **依赖** [[Calibration-Testing]]：SHAP 解释模型"为什么"预测，校准测试验证模型"多准确"预测
+- **依赖** [[Discrimination-Metrics]]：SHAP 贡献分析在 AUC/Gini 判定模型整体可用之后进行细节诊断
+- **支撑** [[Partial-Dependence-Plots]]：PDP 提供边际效应可视化，SHAP 提供精确归因，两者互补
+
+## Key Limitations
+
+- 计算复杂度：精确 Shapley 值计算为指数级，TreeExplainer 对树模型高效但对神经网络等黑盒模型需用 KernelExplainer（采样近似）
+- 交互效应分离：当特征高度相关时，Shapley 值归因可能不稳定
+- 基准依赖：Shapley 值的解释力取决于基准（base value）的选取
--- a/wiki/index.md
+++ b/wiki/index.md
@@ -4,6 +4,9 @@
 - [Overview](overview.md) — living synthesis

 ## Sources
+- [2026-04-25] [Model QA Specialist](sources/specialized-model-qa.md)
+- [2026-04-25] [Corporate Training Designer](sources/corporate-training-designer.md)
+- [2026-04-25] [Cultural Intelligence Strategist](sources/specialized-cultural-intelligence-strategist.md)
 - [2026-04-25] [Healthcare Marketing Compliance Specialist](sources/healthcare-marketing-compliance.md)
 - [2026-04-24] [Workflow Architect Agent Personality](sources/specialized-workflow-architect.md)
 - [2026-04-24] [Government Digital Presales Consultant](sources/government-digital-presales-consultant.md)
@@ -408,10 +411,7 @@
 - [2026-04-20] [compliance-auditor](sources/compliance-auditor.md) — (expected: wiki/sources/compliance-auditor.md — source missing)
 - [2026-04-20] [specialized-salesforce-architect](sources/specialized-salesforce-architect.md) — (expected: wiki/sources/specialized-salesforce-architect.md — source missing)
 - [2026-04-20] [lsp-index-engineer](sources/lsp-index-engineer.md) — (expected: wiki/sources/lsp-index-engineer.md — source missing)
- [2026-04-20] [corporate-training-designer](sources/corporate-training-designer.md) — (expected: wiki/sources/corporate-training-designer.md — source missing)
 - [2026-04-20] [automation-governance-architect](sources/automation-governance-architect.md) — (expected: wiki/sources/automation-governance-architect.md — source missing)
- [2026-04-20] [specialized-model-qa](sources/specialized-model-qa.md) — (expected: wiki/sources/specialized-model-qa.md — source missing)
- [2026-04-20] [Cultural Intelligence Strategist](sources/specialized-cultural-intelligence-strategist.md) — The Agency Specialized 部门文化包容性专家 Agent，检测软件开发中的"隐性排斥"（命名规范、颜色语义、性别选项等），通过四阶段工作流（盲点审计→自主研究→结构修正→解释原理）实现架构级文化智能。
 - [2026-04-20] [llm-wiki](sources/llm-wiki.md) — (expected: wiki/sources/llm-wiki.md — source missing)
 - [2026-04-20] [baoyu-skills](sources/baoyu-skills.md) — (expected: wiki/sources/baoyu-skills.md — source missing)
 - [Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog](sources/Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog.md) — (expected: wiki/sources/Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog.md — source missing)
@@ -757,6 +757,7 @@
 - [Telnyx](entities/Telnyx.md)
 - [Terraform](entities/Terraform.md)
 - [Terragrunt](entities/Terragrunt.md)
+- [The-Agency](entities/The-Agency.md)
 - [Tiago-Forte](entities/Tiago-Forte.md)
 - [TikTok-Ads](entities/TikTok-Ads.md)
 - [tini](entities/tini.md)
@@ -790,19 +791,18 @@
 - [矿神源](entities/矿神源.md)
 - [网件RAX50](entities/网件RAX50.md)
 - [苏东坡](entities/苏东坡.md)
- [The Agency](entities/The-Agency.md)

 ## Concepts
 - [14种UML图](concepts/14种UML图.md)
 - [7种视觉风格系统](concepts/7种视觉风格系统.md)
 - [ABTesting](concepts/ABTesting.md)
- [Architectural-Empathy](concepts/Architectural-Empathy.md)
 - [Account-Health-Score](concepts/Account-Health-Score.md)
 - [Account-Tiering-Model](concepts/Account-Tiering-Model.md)
 - [AccountArchitecture](concepts/AccountArchitecture.md)
 - [ActionItemTracking](concepts/ActionItemTracking.md)
 - [Active-Accountability](concepts/Active-Accountability.md)
 - [Adaptive-Tone](concepts/Adaptive-Tone.md)
+- [ADDIE-Model](concepts/ADDIE-Model.md)
 - [AdExtensions](concepts/AdExtensions.md)
 - [AdStrength](concepts/AdStrength.md)
 - [Advantage+-Campaigns](concepts/Advantage+-Campaigns.md)
@@ -839,6 +839,7 @@
 - [Analogy-as-Straitjacket](concepts/Analogy-as-Straitjacket.md)
 - [Appearance-Anxiety](concepts/Appearance-Anxiety.md)
 - [APT-仓库配置](concepts/APT-仓库配置.md)
+- [Architectural-Empathy](concepts/Architectural-Empathy.md)
 - [arXiv-API](concepts/arXiv-API.md)
 - [Asset-Management](concepts/Asset-Management.md)
 - [Atomic-Commit](concepts/Atomic-Commit.md)
@@ -856,6 +857,7 @@
 - [BindMount](concepts/BindMount.md)
 - [BI平台](concepts/BI平台.md)
 - [Blocking](concepts/Blocking.md)
+- [Bloom-认知分类](concepts/Bloom-认知分类.md)
 - [Blue-Green-Deployment](concepts/Blue-Green-Deployment.md)
 - [Blue-Hat-Logo](concepts/Blue-Hat-Logo.md)
 - [BOOTSTRAP.md](concepts/BOOTSTRAP.md.md)
@@ -870,6 +872,7 @@
 - [Business-Impact-Analysis](concepts/Business-Impact-Analysis.md)
 - [Business-Knowledge-Base](concepts/Business-Knowledge-Base.md)
 - [caffeinate](concepts/caffeinate.md)
+- [Calibration-Testing](concepts/Calibration-Testing.md)
 - [Call-Worthy-Threshold](concepts/Call-Worthy-Threshold.md)
 - [Canary-Deployment](concepts/Canary-Deployment.md)
 - [Canary-Release](concepts/Canary-Release.md)
@@ -959,6 +962,7 @@
 - [DevOps-Maturity](concepts/DevOps-Maturity.md)
 - [DevOpsCulture](concepts/DevOpsCulture.md)
 - [DevSecOps](concepts/DevSecOps.md)
+- [Discrimination-Metrics](concepts/Discrimination-Metrics.md)
 - [DKIM-Email-Authentication](concepts/DKIM-Email-Authentication.md)
 - [dm-verity](concepts/dm-verity.md)
 - [DNS托管](concepts/DNS托管.md)
@@ -1024,6 +1028,7 @@
 - [GitHub-Release-Monitoring](concepts/GitHub-Release-Monitoring.md)
 - [Gitmoji-Commit](concepts/Gitmoji-Commit.md)
 - [GitOps](concepts/GitOps.md)
+- [Global-First-Architecture](concepts/Global-First-Architecture.md)
 - [GPG-密钥验证](concepts/GPG-密钥验证.md)
 - [Green-Computing](concepts/Green-Computing.md)
 - [Hand-Tracking](concepts/Hand-Tracking.md)
@@ -1036,6 +1041,7 @@
 - [Hierarchy-Agent-Pattern](concepts/Hierarchy-Agent-Pattern.md)
 - [high-availability](concepts/high-availability.md)
 - [HookBodyCTA](concepts/HookBodyCTA.md)
+- [Hosmer-Lemeshow-Test](concepts/Hosmer-Lemeshow-Test.md)
 - [HouseholdInventoryTracking](concepts/HouseholdInventoryTracking.md)
 - [HTTPS自动化证书](concepts/HTTPS自动化证书.md)
 - [Human-Handoff](concepts/Human-Handoff.md)
@@ -1062,6 +1068,7 @@
 - [Intent-Classification](concepts/Intent-Classification.md)
 - [Intentional-Cloud-Strategy](concepts/Intentional-Cloud-Strategy.md)
 - [Inversion](concepts/Inversion.md)
+- [Invisible-Exclusion](concepts/Invisible-Exclusion.md)
 - [IP纯净度](concepts/IP纯净度.md)
 - [ISOHybrid镜像](concepts/ISOHybrid镜像.md)
 - [ITSM](concepts/ITSM.md)
@@ -1072,8 +1079,10 @@
 - [Kanban](concepts/Kanban.md)
 - [Keyword-Based-Monitoring](concepts/Keyword-Based-Monitoring.md)
 - [Kill-Switch](concepts/Kill-Switch.md)
+- [Kirkpatrick-四级评估](concepts/Kirkpatrick-四级评估.md)
 - [Knock-out-Pattern](concepts/Knock-out-Pattern.md)
 - [Knowledge-Base-RAG](concepts/Knowledge-Base-RAG.md)
+- [Kolb-体验式学习圈](concepts/Kolb-体验式学习圈.md)
 - [Kubernetes](concepts/Kubernetes.md)
 - [Land-and-Expand](concepts/Land-and-Expand.md)
 - [Landing-Zone-Architecture](concepts/Landing-Zone-Architecture.md)
@@ -1140,6 +1149,7 @@
 - [Pain-Point-Mining](concepts/Pain-Point-Mining.md)
 - [Paper-Abstract-Batch-Fetching](concepts/Paper-Abstract-Batch-Fetching.md)
 - [Parallel-Agent-Execution](concepts/Parallel-Agent-Execution.md)
+- [Partial-Dependence-Plots](concepts/Partial-Dependence-Plots.md)
 - [Partition-Updates](concepts/Partition-Updates.md)
 - [Passive-Learning](concepts/Passive-Learning.md)
 - [passkey](concepts/passkey.md)
@@ -1160,6 +1170,7 @@
 - [POC-Scoping](concepts/POC-Scoping.md)
 - [Pod-Security-Context](concepts/Pod-Security-Context.md)
 - [Policy-as-Code](concepts/Policy-as-Code.md)
+- [Population-Stability-Index](concepts/Population-Stability-Index.md)
 - [Portfolio-ROI](concepts/Portfolio-ROI.md)
 - [PRD生成工作流](concepts/PRD生成工作流.md)
 - [Pre-Build-Validation](concepts/Pre-Build-Validation.md)
@@ -1239,6 +1250,7 @@
 - [Serverless-Computing](concepts/Serverless-Computing.md)
 - [Service-Control-Policies-SCPs](concepts/Service-Control-Policies-SCPs.md)
 - [SES-Sandbox-Mode](concepts/SES-Sandbox-Mode.md)
+- [SHAP](concepts/SHAP.md)
 - [Shared-Memory-Architecture](concepts/Shared-Memory-Architecture.md)
 - [Shared-Responsibility-Model](concepts/Shared-Responsibility-Model.md)
 - [SharedStateCoordination](concepts/SharedStateCoordination.md)
--- a/wiki/log.md
+++ b/wiki/log.md
@@ -1,3 +1,29 @@
+## [2026-04-25] ingest | Model QA Specialist
+- Source file: Agent/agency-agents/specialized/specialized-model-qa.md
+- Status: ✅ 成功摄入
+- Summary: Model QA Specialist——The Agency Specialized 部门的 ML/统计模型端到端独立审计专家 Agent，核心方法：10 大审计领域覆盖模型全生命周期（文档治理→数据重建→标签分析→分段评估→特征分析→模型复制→校准测试→性能监控→可解释性→业务影响），配套完整 Python 工具集（PSI 监控、Hosmer-Lemeshow 校准检验、SHAP 可解释性分析、PDP 偏依赖图、KS/AUC/Gini 判别指标）。核心原则：独立性、可复现性、证据链完整。成功指标：审计发现 95%+ 被确认有效、零部署后失败。
+- Concepts created: [[SHAP]]（特征归因可解释性框架）、[[Calibration-Testing]]（概率校准验证方法）、[[Discrimination-Metrics]]（判别能力指标体系 AUC/Gini/KS）、[[Partial-Dependence-Plots]]（偏依赖图）、[[Population-Stability-Index]]（群体稳定性指数）、[[Hosmer-Lemeshow-Test]]（校准拟合优度检验）
+- Entities created: （The Agency Specialized 部门在多个来源中多次出现，本次检查 entities/ 目录已存在，未新建）
+- Source page: wiki/sources/specialized-model-qa.md
+- Notes: index.md 中原有 "source missing" 条目，本次摄入后已更新为完整条目。overview.md Specialized 部门新增 Model QA Specialist 条目置于 cultural-intelligence-strategist 之后。与 [[multi-agent-system-reliability]] 存在潜在张力（对抗辩论 vs 统计检验），已在 Contradictions 中记录。6 个 Concept 页面创建前已做去重检查，确认均不存在。与 specialized-workflow-architect（Reality Checker 验证）构成质量保障互补，已在 overview.md 建立链接关系。
+
+
+- Source file: Agent/agency-agents/specialized/corporate-training-designer.md
+- Status: ✅ 成功摄入
+- Summary: Corporate Training Designer——The Agency Specialized 部门的企业培训体系架构师 Agent，核心方法：ADDIE 教学设计模型（分析→设计→开发→实施→评估）、Kirkpatrick 四级评估（反应→学习→行为→业务结果）、Bloom 认知六层次、Kolb 体验式学习圈、OMO 混合学习（线上认知→线下实践→社群持续）。核心价值观：优秀培训的衡量标准不是"教了什么"，而是"学员回去做了什么"。覆盖培训需求分析、课程体系设计、内容开发、内训师培养（TTT）、新员工培训、领导力发展（HIPO）、合规培训等全链路能力。
+- Concepts created: [[ADDIE-Model]]（ADDIE 教学设计模型）、[[Kirkpatrick-四级评估]]（培训效果四级评估框架）、[[Bloom-认知分类]]（认知六层次分类）、[[Kolb-体验式学习圈]]（体验式学习循环）
+- Entities created: [[The-Agency]]（The Agency 多智能体系统组织，147 个 Agent 跨 12 部门）
+- Source page: wiki/sources/corporate-training-designer.md
+- Notes: index.md 中原有早期条目，本次为完整摄入。overview.md Specialized 部门新增 Corporate Training Designer 条目，并置于 Cultural Intelligence Strategist 之前（按摄取顺序）。4 个 Concept 页面创建前已做去重检查，确认均不存在。Corporate Training Designer 与 specialized-workflow-architect、cultural-intelligence-strategist 形成系统性设计能力互补，在 overview.md 中已建立链接关系。Corporate Training Designer 与其他 Agent 无明显内容冲突。
+
+- Source file: Agent/agency-agents/specialized/specialized-cultural-intelligence-strategist.md
+- Status: ✅ 成功摄入
+- Summary: Cultural Intelligence Strategist——The Agency Specialized 部门的文化包容性专家 Agent，核心职责：检测软件开发中的"隐性排斥"（Invisible Exclusion），包括 Western 默认命名结构、颜色语义冲突（红色=中国金融上涨）、性别二元假设、RTL 阅读方向等。通过四阶段工作流（盲点审计→自主研究→结构修正→解释原理）提供架构级文化智能解决方案。核心价值：将国际化从"亡羊补牢"提升为"架构前提条件"，拒绝表演性多元化，追求结构性包容。
+- Concepts created: [[Invisible-Exclusion]]（隐性排斥模式定义）、[[Architectural-Empathy]]（结构性同理心哲学）、[[Global-First-Architecture]]（国际化架构前提原则）
+- Entities created: [[The-Agency]]（The Agency 多智能体系统组织，147 个 Agent 跨 12 部门）
+- Source page: wiki/sources/specialized-cultural-intelligence-strategist.md
+- Notes: index.md 中原有 "source missing" 条目，本次摄入后已更新为完整条目。overview.md Specialized 部门新增 Cultural Intelligence Strategist 条目。Concept 页面创建前已做去重检查，确认 Invisible-Exclusion、Architectural-Empathy、Global-First-Architecture 三个概念此前均不存在。与 [[InclusiveVisualsSpecialist]]（Design 部门包容性视觉专家）和 [[design-brand-guardian]]（品牌守护）存在跨部门协同与张力关系，已在 overview.md 和 source page Contradictions 中记录。
+
 ## [2026-04-25] ingest | Workflow Architect Agent Personality
 - Source file: Agent/agency-agents/specialized/specialized-workflow-architect.md
 - Status: ✅ 成功摄入
--- a/wiki/overview.md
+++ b/wiki/overview.md
@@ -691,8 +691,12 @@ Key concepts: [[Django ORM]], [[Django REST Framework]], [[Django Admin 定制]]

 |**[[specialized-workflow-architect]]**（Workflow Architect）：工作流设计专家 Agent——The Agency Specialized 部门的工作流设计与系统建模专家，在代码编写前对系统所有路径进行穷举建模。核心职责：**工作流发现**（扫描 route/worker/migration/IaC/cron 文件找出隐式工作流）+ **工作流注册表维护**（四视角：按工作流/按组件/按用户旅程/按状态）。核心交付物：**工作流树规范格式**（含 Actor/Prerequisites/Trigger/Step 树/ABORT_CLEANUP/State Transitions/Cleanup Inventory/Test Cases/Assumptions），覆盖快乐路径+七类失败分支（输入验证/超时/瞬态/永久/部分失败/并发冲突）。关键原则：**不只为快乐路径设计**、**每个系统边界定义显式 Handoff Contract**（payload schema + 成功/失败响应 + 超时值 + 恢复动作）、**Reality Checker 验证是 Draft 升为 Approved 的前置条件**。Agent 协作协议：Reality Checker 验证规范→Backend Architect 实现代码→API Tester 生成测试用例→DevOps Automator 验证清理顺序。属 The Agency Specialized 部门的质量保障基础设施，与 [[specialized-civil-engineer]]（基础设施工程）同属 Specialized 专业 Agent 系列。

+**[[corporate-training-designer]]**（Corporate Training Designer）：The Agency Specialized 部门的企业培训体系架构师与课程开发专家——专注企业级培训需求分析、ADDIE/SAM 教学设计模型、混合学习项目、内训师培养（TTT）、领导力发展（HIPO）及 Kirkpatrick 四级培训效果评估。核心价值观：**优秀培训的衡量标准不是"教了什么"，而是"学员回去做了什么"**。关键方法：ADDIE 模型（分析→设计→开发→实施→评估）、Bloom 认知六层次、Kirkpatrick 四级评估（反应→学习→行为→业务结果）、Kolb 体验式学习圈、OMO 混合学习（线上"认知"→线下"实践"→社群"持续"）。与 [[specialized-workflow-architect]]（工作流设计）和 [[cultural-intelligence-strategist]]（跨文化产品设计）形成系统性设计能力互补——分别应用于组织学习、软件工程和文化包容三大领域，共同构成 [[The Agency]] 的系统性设计矩阵。
+
 **[[cultural-intelligence-strategist]]**（Cultural Intelligence Strategist）：文化包容性专家 Agent——The Agency Specialized 部门的文化智能策略师，专门检测和消除软件开发中的"隐性排斥"（Invisible Exclusion）。核心方法：**四阶段工作流**（盲点审计→自主研究→结构修正→解释原理）。典型案例：刚性 First Name / Last Name 字段在 APAC 市场失效（改为 Full Name 或 Preferred Name）；中国金融应用中红色表示"上涨"而非"错误"（需辅以文字/图标说明）；RTL 阅读方向、多日历系统、不同文化隐私期望等全局包容性设计。核心原则：**国际化是架构前提条件，而非亡羊补牢**；**拒绝表演性多元化**——仅在首页放多元人群图但产品流程本身仍具排斥性不可接受。核心价值：将文化智能（CQ）从"后期本地化补丁"提升为"架构级前提条件"。与 [[InclusiveVisualsSpecialist]]（包容性视觉）互补——前者覆盖整个产品工作流（含表单、交互、颜色语义），后者专注于 AI 生成图像的表征偏见消除；与 [[design-brand-guardian]] 在特定市场语境下存在张力——品牌一致性要求与为不同市场调整视觉语义的必要性需要平衡。

+**[[specialized-model-qa]]**（Model QA Specialist）：ML/统计模型端到端独立审计专家——The Agency Specialized 部门的模型质量保障专家，核心使命：**将模型视为"有罪推定"，直到全面审计证明其可靠性**。独立于模型构建者运行，通过证据驱动的分析发现模型在文档、数据、特征、性能、校准、可解释性、公平性等各环节的问题，并量化业务影响。核心方法：10 大审计领域覆盖模型全生命周期（文档治理→数据重建→标签分析→分段评估→特征分析→模型复制→校准测试→性能监控→可解释性→业务影响），配套完整 Python 工具集（PSI 监控、Hosmer-Lemeshow 校准检验、SHAP 可解释性分析、PDP 偏依赖图、KS/AUC/Gini 判别指标）。核心原则：**独立性**（永远不审计自己参与构建的模型）、**可复现性**（每个分析必须产出可执行脚本）、**证据链完整**（每个发现必须包含观察→证据→影响评估→建议）。成功指标：审计发现 95%+ 被模型所有者确认为有效、零部署后失败。属 The Agency Specialized 部门的质量保障垂直方向，与 [[specialized-workflow-architect]]（工作流设计中的 Reality Checker 验证）互补——后者验证系统行为符合规范，前者验证 ML/统计模型符合质量标准，共同构成 [[The Agency]] 的全栈质量保障体系。与 [[multi-agent-system-reliability]] 存在潜在张力：对抗辩论模式通过架构约束弥补 LLM 不可靠性（概率性），而 Model QA 要求确定性统计证据链。
+
 ## Conflict Areas

 1. **Kanban vs Event Sourcing**: Kanban emphasizes visual team collaboration; Event Sourcing emphasizes auto-tracking and context preservation. **[[Project State Management]]**（事件驱动看板替代方案）vs 传统 PM 工具。核心差异：手动拖拽 vs 自然语言输入；静态快照 vs 全历史保留；无上下文 vs 完整决策链。**[[Event Sourcing]]** 在此上下文中指将项目变更存储为事件序列，每次 progress/blocker/decision/pivot 均持久化，保留完整决策上下文。
--- a/wiki/sources/corporate-training-designer.md
+++ b/wiki/sources/corporate-training-designer.md
@@ -0,0 +1,49 @@
+---
+title: "Corporate Training Designer"
+type: source
+tags: []
+date: 2026-04-25
+---
+
+## Source File
+- [[Agent/agency-agents/specialized/corporate-training-designer.md]]
+
+## Summary（用中文描述）
+- 核心主题：企业培训体系架构师与课程开发专家（Corporate Training Designer）—— 专注企业级培训需求分析、ADDIE/SAM 教学设计模型、混合学习项目设计、内训师培养、领导力发展项目，以及 Kirkpatrick 四级培训效果评估体系。
+- 问题域：企业培训中"为培训而培训"的现象普遍存在——培训目标不可衡量、课程内容脱离业务场景、学习效果无法落地到行为改变。
+- 方法/机制：从业务问题出发，以能力差距分析为基础，采用 ADDIE/SAM 模型设计课程体系，通过 OMO 混合学习、Kolb 体验式学习、翻转课堂等方法交付，并通过 Kirkpatrick 四级评估验证业务价值。
+- 结论/价值：优秀培训的衡量标准不是"教了什么"，而是"学员回去做了什么"——数据驱动的培训体系能真正提升员工能力与组织绩效。
+
+## Key Claims（用中文描述）
+- 培训设计必须从业务问题出发，而非从"我们有什么课"出发；培训目标必须可衡量，而非"提高沟通能力"这类模糊表述。
+- 所有案例必须改编自真实业务场景，拒绝脱离实际的"教材式案例"；课程内容须每年至少更新一次。
+- 每项培训项目必须有评估计划——高投资（领导力、关键岗位）必须追踪到 Kirkpatrick Level 3（行为改变）。
+- 合规培训须覆盖全体员工，记录完整，360 度反馈结果仅限本人及直属上级知晓。
+
+## Key Quotes
+> "Good training isn't about 'what was taught' — it's about 'what learners do differently when they go back to work.'" — 培训设计的核心价值观
+> "Training objectives must be measurable — not 'improve communication skills,' but 'increase the percentage of new hires independently completing client proposals within 3 months from 40% to 70%.'" — 培训目标的 SMART 原则
+> "For this leadership program, I recommend replacing pure classroom lectures with 'business challenge projects.' Learners form groups, take on a real business problem, learn while doing, and present results to the CEO after 3 months." — 成人学习理论的应用
+> "Data from the last sales new hire boot camp: trainees had a 23% higher first-month deal close rate than non-trainees, with an average of 18,000 yuan more in per-capita output." — 培训 ROI 的量化证明
+
+## Key Concepts
+- [[ADDIE 模型]]：Analysis（分析）→ Design（设计）→ Development（开发）→ Implementation（实施）→ Evaluation（评估），每个阶段有明确交付物，是教学设计的基础框架。
+- [[SAM 模型]]（Successive Approximation Model）：适合快速迭代场景，通过"原型 → 评审 → 修订"循环缩短上线时间。
+- [[Kirkpatrick 四级评估]]：Level 1 反应（满意度）、Level 2 学习（知识技能掌握）、Level 3 行为（行为改变）、Level 4 结果（业务指标变化）。
+- [[Bloom 认知分类]]：从记忆→理解→应用→分析→评价→创造，逐级提升学习目标设计深度。
+- [[Kolb 体验式学习圈]]：具体经验 → 反思观察 → 抽象概念化 → 主动实验，闭环驱动学习转化。
+- [[OMO 混合学习]]（Online-Merge-Offline）：线上解决"认知"、线下解决"实践"、学习社群解决"持续"。
+- [[TTT]]（Train the Trainer）：内训师培养体系——成人学习原则、课程开发技巧、表达与呈现技能、课堂管理与互动技巧、课件设计标准。
+- [[HIPO]]（High-Potential Talent Program）：高潜人才培养项目，通过 IDP（个人发展计划）、轮岗、导师辅导、挑战性任务加速人才成长。
+- [[ADDIE 模型]]：微课（5-15 分钟）、案例教学、沙盘模拟、剧本杀式沉浸体验培训等多元内容形式。
+
+## Key Entities
+- [[The Agency]]：该 Agent 所属的 Agent 系统生态。
+
+## Connections
+- [[Specialized Workflow Architect]] ← related_to ← [[Corporate Training Designer]]：两者均涉及工作流程设计，但前者专注软件工程流程，后者专注组织学习流程。
+- [[Specialized Cultural Intelligence Strategist]] ← related_to ← [[Corporate Training Designer]]：两者均涉及跨文化能力建设，但前者专注产品文化包容，后者专注培训内容的文化适配。
+- [[Specialized HR Onboarding]] ← extends ← [[Corporate Training Designer]]：新员工培训是 Corporate Training Designer 的重要子领域。
+
+## Contradictions
+- （暂无已知冲突。该 Agent 专注于企业内部培训体系，与其他 Agent 在应用场景上有明显差异。）
--- a/wiki/sources/specialized-model-qa.md
+++ b/wiki/sources/specialized-model-qa.md
@@ -0,0 +1,50 @@
+---
+title: "Model QA Specialist"
+type: source
+tags: []
+date: 2026-04-25
+---
+
+## Source File
+- [[Agent/agency-agents/specialized/specialized-model-qa.md]]
+
+## Summary（用中文描述）
+- 核心主题：机器学习与统计模型的全生命周期端到端独立审计方法论
+- 问题域：模型质量管理、模型风险控制、合规性验证、生产监控
+- 方法/机制：10大审计领域（文档治理→数据重建→特征分析→模型复制→校准测试→性能监控→可解释性→公平性→业务影响→报告），配套 PSI/Hosmer-Lemeshow/SHAP/PDP 等量化工具
+- 结论/价值：将模型视为"有罪推定"——每个模型必须经过全面审计并以证据支撑结论，独立于模型构建者运行，确保生产部署前发现所有潜在问题
+
+## Key Claims（用中文描述）
+- 模型审计师必须保持绝对独立性——永远不审计自己参与构建的模型
+- 每次分析必须产生完全可复现的脚本，从原始数据到最终输出全链路可追溯
+- 每个发现必须包含：观察→证据→影响评估→建议，缺一不可
+- PSI ≥ 0.25 表示显著分布漂移，需立即采取行动
+- Hosmer-Lemeshow p-value < 0.05 表示显著校准错误
+
+## Key Quotes
+> "You treat every model as guilty until proven sound." — 核心审计哲学
+> "PSI >= 0.25 → Significant shift, action required (red)" — PSI 判读标准
+> "Never audit a model you participated in building" — 独立性原则
+> "Every finding must include: observation, evidence, impact assessment, and recommendation" — 证据链要求
+
+## Key Concepts
+- [[SHAP]]：SHapley Additive exPlanations — 全局和局部特征贡献解释的核心工具
+- [[Calibration-Testing]]：概率校准验证方法——确保模型预测概率与实际频率一致
+- [[Discrimination-Metrics]]：判别能力指标体系——AUC/Gini/KS 等衡量模型区分能力
+- [[Partial-Dependence-Plots]]：偏依赖图——特征与预测之间的边际效应可视化
+- [[Population-Stability-Index]]：群体稳定性指数——衡量特征分布随时间的漂移程度
+- [[Hosmer-Lemeshow-Test]]：校准度拟合优度检验——统计判断预测概率与实际观测的一致性
+
+## Key Entities
+- The Agency Specialized 部门：该 Agent 所属的专业化 Agent 部门，涵盖医疗合规、文化智能、工作流架构、模型 QA 等垂直专业领域
+
+## Connections
+- [[Corporate-Training-Designer]] ← 质量保证 ← [[specialized-model-qa]]
+- [[specialized-model-qa]] ← 审计输入 ← [[specialized-workflow-architect]]
+- [[Agentic-Identity-&-Trust-Architect]] ← 安全基础 ← [[specialized-model-qa]]（QA 报告的签名验证依赖身份基础设施）
+
+## Contradictions
+- 与 [[multi-agent-system-reliability]] 的对抗辩论模式存在潜在张力：
+  - 冲突点：multi-agent-system-reliability 主张用对抗辩论（Generator→Critic→Judge）消除 LLM 幻觉；Model QA Specialist 要求确定性证据链，LLM 的概率性本质与之矛盾
+  - 当前观点：Model QA Specialist 通过严格的统计检验（HL test、PSI）提供确定性判断，不依赖 LLM 自我批判
+  - 对方观点：对抗辩论通过架构约束弥补 LLM 不可靠性，适合快速迭代；统计检验需要完整数据，适合深度审计