Sync: add model evaluation and training notes

This commit is contained in:
2026-04-25 08:52:32 +08:00
parent 77fae85f60
commit 6006601b6b
16 changed files with 2124 additions and 5 deletions

File diff suppressed because it is too large Load Diff

View File

@@ -0,0 +1,38 @@
---
title: "ADDIE 模型"
type: concept
tags: []
last_updated: 2026-04-25
---
## Definition
ADDIE 模型是企业培训课程开发的系统性框架,包含五个阶段:
1. **Analysis分析**:培训需求分析——组织诊断、能力差距识别、培训 ROI 估算、需求优先级排序
2. **Design设计**:学习目标设计——基于 Bloom 认知分类定义可衡量的学习成果
3. **Development开发**:课程内容开发——微课、案例、练习、题库、课件
4. **Implementation实施**:培训交付——线上/线下/混合学习交付方式
5. **Evaluation评估**:效果评估——基于 Kirkpatrick 四级模型评估培训效果
## Aliases
- ADDIE
- ADDIE Model
- ADDIE 教学设计模型
- 分析-设计-开发-实施-评估
## Key Characteristics
- **每个阶段有明确交付物**:分析报告、教学设计文档、课程包、培训执行计划、效果评估报告
- **迭代性**:实践中通常循环迭代,而非严格线性执行
- **系统性**:确保培训项目从需求到效果有完整闭环
## Related Concepts
- [[Kirkpatrick-四级评估]]ADDIE 的最后一步Evaluation的具体方法论
- [[Bloom-认知分类]]ADDIE Design 阶段学习目标设计的认知层次框架
- [[Kolb-体验式学习圈]]:与 ADDIE 并行的另一学习设计框架,侧重体验循环
## Source
- [[corporate-training-designer]]

View File

@@ -0,0 +1,40 @@
---
title: "Bloom 认知分类"
type: concept
tags: []
last_updated: 2026-04-25
---
## Definition
Bloom 认知分类Bloom's Taxonomy是由 Benjamin Bloom 等人于 1956 年提出的教育目标分类框架,将学习认知过程分为六个递进层次:
1. **Remember记忆**:识记、回忆基本事实——定义、列表、复述
2. **Understand理解**:解释概念含义——总结、分类、解释原因
3. **Apply应用**:将知识运用于新情境——执行、操作、解决问题
4. **Analyze分析**:拆解复杂结构——区分、组织、归因
5. **Evaluate评价**:基于标准做判断——检查、批判、论证
6. **Create创造**:整合元素形成新结构——设计、建构、发明
## Aliases
- Bloom's Taxonomy
- Bloom 认知分类
- Bloom 教育目标分类
- 布鲁姆认知分类
## Key Characteristics
- **递进性**:从低阶思维(记忆/理解)到高阶思维(分析/评价/创造)
- **教学设计应用**:每个层次对应不同的学习活动和评估方式
- 低阶目标 → 讲授、阅读、测验
- 高阶目标 → 案例分析、项目实践、创作展示
- **逆向设计**:从期望的认知层次出发,设计学习活动和评估
## Related Concepts
- [[ADDIE-Model]]Bloom 分类是 ADDIE Design 阶段学习目标定义的核心工具
- [[Kirkpatrick-四级评估]]:学习活动的认知层次影响 Level 2 评估方法的选择
## Source
- [[corporate-training-designer]]

View File

@@ -0,0 +1,78 @@
---
title: "Calibration Testing"
type: concept
tags: [model-evaluation, probability-calibration, model-quality]
last_updated: 2026-04-25
---
## Definition
概率校准Calibration Testing验证模型输出的预测概率与实际发生的频率是否一致。一个校准良好的分类器若它预测某事件概率为 80%,则该事件实际发生的频率应接近 80%。
## Core Methods
### Hosmer-Lemeshow Test
- 将预测概率分组默认10组比较每组观测正例数与期望正例数
- 统计量:$\chi^2 = \sum \frac{(observed - expected)^2}{expected(1 - expected/n)}$
- 自由度:组数 - 2p-value < 0.05 → 拒绝原假设(校准差)
- **局限性**:对样本量敏感,分组方式不同结果不同
### Brier Score
- $BS = \frac{1}{N}\sum(p_i - y_i)^2$,取值 [0, 0.25](二分类)
- 同时衡量校准calibration和区分度refinement
- 值越低越好,可分解为:$BS = Calibration^2 + Refinement$
- **优势**:无需分组,对样本量稳健,可跨模型比较
### Reliability Diagram可靠性图
- 将预测概率分箱bin绘制实际正例率 vs 预测概率
- 理想情况为 45° 对角线S 形曲线表示欠/过度预测
- 视觉诊断工具,适合识别系统性校准偏差
### Expected Calibration Error (ECE)
- 加权平均每箱预测概率与实际频率的绝对差
- $ECE = \sum_b \frac{|b|}{n} |acc(b) - conf(b)|$
- 量化校准误差,便于跨模型对比
## Usage
```python
# Hosmer-Lemeshow
from scipy.stats import chi2
def hosmer_lemshow_test(y_true, y_pred, groups=10):
data = pd.DataFrame({"y": y_true, "p": y_pred})
data["bucket"] = pd.qcut(data["p"], groups, duplicates="drop")
agg = data.groupby("bucket", observed=True).agg(
n=("y", "count"), observed=("y", "sum"), expected=("p", "sum")
)
hl_stat = (((agg["observed"] - agg["expected"])**2) /
(agg["expected"] * (1 - agg["expected"]/agg["n"]))).sum()
dof = len(agg) - 2
p_value = 1 - chi2.cdf(hl_stat, dof)
return {"HL_statistic": round(hl_stat, 4), "p_value": round(p_value, 6), "calibrated": p_value >= 0.05}
# Brier Score
from sklearn.metrics import brier_score_loss
bs = brier_score_loss(y_true, y_pred)
```
## Model QA 中的应用
Model QA Specialist 执行以下校准审计:
1. **跨子群体校准**:在年龄/地区/收入等子群体上分别测试,发现整体指标掩盖的局部校准问题
2. **时间窗口稳定性**:跨 OOTOut-of-Time窗口测试校准稳定性识别时间漂移
3. **分布偏移下的校准**在压力场景population shift下测试评估模型鲁棒性
4. **决策阈值校准**:根据业务决策阈值(如 p > 0.6 触发行动),评估该阈值处的校准质量
## Relationship
- **依赖** [[Discrimination-Metrics]]先验证模型有区分能力AUC/Gini再讨论校准才有意义
- **依赖** [[SHAP]]SHAP 解释"哪个特征导致校准偏差",支撑诊断方向
- **依赖** [[Population-Stability-Index]]PSI 捕捉特征分布漂移,漂移是校准失效的根本原因之一
- **支撑** [[specialized-model-qa]]SourceModel QA Specialist 的核心审计步骤之一
## Key Insights
- **High AUC ≠ Well Calibrated**:模型可以高区分度但低校准(如逻辑回归自然校准,神经网络往往过度自信)
- **业务影响**:校准误差 180bps0.18)在 decile 10 可能影响 12% 的资产组合
- **监管要求**:巴塞尔协议/IFRS 9/CCAR 等监管框架明确要求信用风险模型的概率校准

View File

@@ -0,0 +1,76 @@
---
title: "Discrimination Metrics"
type: concept
tags: [model-evaluation, classification-metrics, model-performance]
last_updated: 2026-04-25
---
## Definition
判别能力指标Discrimination Metrics衡量模型区分正例与负例的能力——给定一个随机正例和一个随机负例模型有多大概率给正例更高的分数。区别于校准衡量概率准确性判别度衡量排序正确性。
## Core Metrics
### AUC (Area Under the ROC Curve)
- ROC 曲线下面积,取值 [0.5, 1.0]
- 0.5 = 随机猜测1.0 = 完美区分
- 解读:给定随机正例和随机负例,有 AUC 概率给正例更高分数
- **优势**:阈值无关,对类别不平衡相对稳健
### Gini Coefficient
- $Gini = 2 \times AUC - 1$
- 取值 [0, 1.0],与 AUC 线性等价
- 金融行业常用(信用卡评分、信贷风控)
- 监管报告标准指标
### KS Statistic (Kolmogorov-Smirnov)
- 两个累积分布函数(正例 vs 负例)之间的最大垂直距离
- $KS = \max_t |F_{pos}(t) - F_{neg}(t)|$
- 取值 [0, 1.0]KS > 0.2 通常认为有区分能力
- **优势**:不依赖阈值,提供最佳分割点位置信息
### Additional Metrics
| Metric | Formula | 适用场景 |
|--------|---------|---------|
| F1 Score | $2 \times \frac{precision \times recall}{precision + recall}$ | 类别不平衡 |
| RMSE | $\sqrt{\frac{1}{n}\sum(y_i - \hat{y}_i)^2}$ | 回归模型 |
| Log Loss | $-\frac{1}{N}\sum[y_i \log p_i + (1-y_i)\log(1-p_i)]$ | 概率质量 |
## Usage
```python
from sklearn.metrics import roc_auc_score, f1_score
from scipy.stats import ks_2samp
def discrimination_report(y_true, y_score):
auc = roc_auc_score(y_true, y_score)
gini = 2 * auc - 1
ks_stat, ks_pval = ks_2samp(y_score[y_true == 1], y_score[y_true == 0])
return {
"AUC": round(auc, 4),
"Gini": round(gini, 4),
"KS": round(ks_stat, 4),
"KS_pvalue": round(ks_pval, 6),
}
```
## Model QA 中的应用
Model QA Specialist 执行以下判别能力审计:
1. **全数据切片分析**:在 Train/Validation/Test/OOT 四个数据切片上分别计算 AUC/Gini/KS
2. **子群体性能**:在性别/年龄/地区等受保护属性上分别测试,发现公平性隐患
3. **时间稳定性**:跨 OOT 窗口追踪 AUC/Gini 趋势,识别性能衰减
4. **冠军-挑战者对比**Proposed model vs. incumbent production model量化相对提升
## Relationship
- **被依赖** [[Calibration-Testing]]先确认判别能力KS > 0.2, AUC > 0.7),再测试校准
- **依赖** [[Population-Stability-Index]]PSI 监控输入稳定性,判别指标监控输出健康度
- **依赖** [[SHAP]]:判别指标提供"是否好"的答案SHAP 解释"为什么"
- **支撑** [[specialized-model-qa]]SourceModel QA Specialist 的核心性能评估步骤
## Key Insights
- **判别度 vs 校准**:高 AUC 模型仍可能在特定概率区间严重校准偏差;两者必须同时评估
- **KS vs AUC**KS 对尾部区分更敏感抓坏人AUC 对整体排序更均衡
- **监管门槛**:金融风控通常要求 Gini > 0.4(相当于 AUC > 0.7)方可上线

View File

@@ -0,0 +1,91 @@
---
title: "Hosmer-Lemeshow Test"
type: concept
tags: [model-evaluation, calibration-testing, goodness-of-fit]
last_updated: 2026-04-25
---
## Definition
Hosmer-LemeshowHL检验是一种评估二分类模型预测概率校准程度的拟合优度检验通过比较预测概率分箱后的观测正例数与期望正例数判断模型预测与实际结果之间是否存在显著差异。p-value < 0.05 时拒绝原假设(模型校准良好),认为模型存在显著的校准偏差。
## Algorithm
1. 将样本按预测概率从小到大分箱(默认 10 箱,或自定义 g 组)
2. 对每箱计算:
- **观测正例数** $O_g = \sum_{i \in \text{group } g} y_i$
- **期望正例数** $E_g = \sum_{i \in \text{group } g} \hat{p}_i$
- **样本数** $n_g$
3. 计算 HL 统计量:
$$H = \sum_{g=1}^{G} \frac{(O_g - E_g)^2}{E_g (1 - E_g / n_g)}$$
4. 自由度 $df = G - 2$(减去截距和斜率估计参数)
5. 与 $\chi^2(df)$ 分布比较,$p = 1 - F_{H}(H)$
## Interpretation
```python
from scipy.stats import chi2
def hosmer_lemshow_test(y_true: pd.Series, y_pred: pd.Series, groups: int = 10) -> dict:
data = pd.DataFrame({"y": y_true, "p": y_pred})
data["bucket"] = pd.qcut(data["p"], groups, duplicates="drop")
agg = data.groupby("bucket", observed=True).agg(
n=("y", "count"),
observed=("y", "sum"),
expected=("p", "sum"),
)
hl_stat = (
((agg["observed"] - agg["expected"])**2) /
(agg["expected"] * (1 - agg["expected"] / agg["n"]))
).sum()
dof = len(agg) - 2
p_value = 1 - chi2.cdf(hl_stat, dof)
return {
"HL_statistic": round(hl_stat, 4),
"p_value": round(p_value, 6),
"calibrated": p_value >= 0.05, # True = well calibrated
"dof": dof,
"groups_used": len(agg),
}
```
| p-value | 判读 |
|---------|------|
| ≥ 0.05 | 🟢 模型校准良好,无显著证据表明预测概率偏离实际频率 |
| < 0.05 | 🔴 拒绝原假设,模型存在显著校准偏差 |
## Limitations
1. **分组方式敏感**:不同分箱数量/方法导致不同结果10 等分是惯例但非最优
2. **样本量敏感**:大样本下即使微小偏差也能导致显著 p-value实际影响可能很小
3. **掩盖子群体问题**:整体通过 HL 检验不等于所有子群体都校准良好
4. **序贯分组问题**qcut 在重复值多时可能合并箱子,需检查 `groups_used`
## Alternatives
- **Brier Score**:无需分组,对样本量稳健,但只能给出误差量级而非定位
- **Spiegelhalter's Z-test**:基于 Brier Score 的统计检验
- **Reliability Curves**:可视化诊断,比 HL 检验提供更多信息
- **Expected Calibration Error (ECE)**:量化平均校准误差,解释性更强
## Model QA 中的应用
Model QA Specialist 将 HL 检验用于:
1. **模型上线前验证**:新模型上线必须通过 HL 检验p ≥ 0.05
2. **定期监控**:在 OOT 窗口上重复执行,监控校准随时间恶化趋势
3. **子群体分层测试**:在关键子群体(高风险/低风险/新客户)上分别执行
4. **Champion-Challenger**:对比 champion model vs challenger model 的 HL 结果
## Relationship
- **被依赖** [[Calibration-Testing]]HL 检验是 Calibration Testing 的核心统计工具之一
- **依赖** [[Discrimination-Metrics]]先确认模型有区分能力AUC/Gini 达标),再讨论校准
- **依赖** [[Population-Stability-Index]]PSI 漂移往往是 HL 检验失败的前兆
- **依赖** [[SHAP]]HL 检验发现校准问题后,用 SHAP waterfall 诊断具体原因
- **支撑** [[specialized-model-qa]]SourceModel QA Specialist 校准测试步骤的核心工具

View File

@@ -0,0 +1,32 @@
---
title: "Kirkpatrick 四级评估"
type: concept
tags: []
last_updated: 2026-04-25
---
## Definition
Kirkpatrick 四级评估模型是衡量企业培训效果的标准框架,由 Donald Kirkpatrick 于 1959 年提出,分为四个层次:
- **Level 1 — Reaction反应**学员对培训的满意度调查——课程评分、讲师评分、NPS
- **Level 2 — Learning学习**:知识与技能掌握程度——知识测验、技能实操评估、案例分析作业
- **Level 3 — Behavior行为**训后行为改变——30/60/90 天行为跟踪、上级观察、关键行为清单
- **Level 4 — Results结果**:业务指标变化——营收、客户满意度、生产效率、员工留存率
## Aliases
- Kirkpatrick Model
- Kirkpatrick 四级评估
- Kirkpatrick 四层次评估
- 培训效果评估模型
## Key Characteristics
- **逐级递进**Level 1-2 较易测量Level 3-4 需要更长周期和更复杂的数据收集
- **业务导向**Level 3-4 直接关联业务指标是培训投资回报ROI的核心证明
- **最低标准**:所有培训项目至少应评估到 Level 2Learning
- **高投资标准**:领导力发展、关键岗位培训等高投资必须追踪到 Level 3Behavior
## Source
- [[corporate-training-designer]]

View File

@@ -0,0 +1,37 @@
---
title: "Kolb 体验式学习圈"
type: concept
tags: []
last_updated: 2026-04-25
---
## Definition
Kolb 体验式学习圈Kolb's Experiential Learning Cycle由 David Kolb 于 1984 年提出,描述了一个四阶段的循环学习过程:
1. **Concrete Experience具体经验**:全身心投入真实或模拟的体验
2. **Reflective Observation反思观察**:从不同视角审视体验,思考发生了什么
3. **Abstract Conceptualization抽象概念化**:从经验中提炼出理论、模型或框架
4. **Active Experimentation主动实验**:将概念应用于新的实践场景,测试假设
## Aliases
- Kolb's Learning Cycle
- Kolb 体验式学习
- Kolb 学习圈
- 体验式学习循环
## Key Characteristics
- **闭环性**:四个阶段首尾相连,形成持续改进的学习螺旋
- **个性化**:不同学习者偏好不同阶段(有人偏经验型,有人偏反思型)
- **主动学习**:强调"做中学",而非被动接受知识
- **应用场景**:沙盘模拟、角色扮演、剧本杀式培训、领导力发展项目
## Relationship to Other Concepts
- **与 ADDIE 模型**:体验式学习可作为 ADDIE Implementation 阶段的教学方法
- **与 Kirkpatrick Level 3**:体验式学习的闭环特性天然支持训后行为改变的追踪
## Source
- [[corporate-training-designer]]

View File

@@ -0,0 +1,71 @@
---
title: "Partial Dependence Plots"
type: concept
tags: [model-interpretability, feature-analysis, model-visualization]
last_updated: 2026-04-25
---
## Definition
偏依赖图Partial Dependence PlotsPDP展示一个或两个特征与模型预测之间的边际关系——在控制其他特征后该特征取不同值时模型输出的平均预测变化。核心假设特征之间相对独立独立PDP否则需要 ICE 曲线Individual Conditional Expectation补充。
## Core Types
### 1D PDP单特征
- 固定其他特征不动,在目标特征的取值范围内计算模型平均预测
- 可视化x 轴为特征值y 轴为偏依赖值(边际预测效应)
- 用于:验证特征方向是否符合业务预期(单调递增/递减/U形
### 2D PDP特征交互
- 两个特征同时变化,展示交互效应对预测的联合影响
- 用于:检测模型学习到的非预期特征交互(如 X₁ × X₂ 的非线性组合)
### ICE CurvesIndividual Conditional Expectation
- 每条线代表一个样本的偏依赖曲线(而非平均值)
- 解决 PDP 掩盖个体异质性的问题
- 与 PDP 结合PDP 叠加 ICE 曲线,同时展示平均趋势和个体差异
## Usage
```python
from sklearn.inspection import PartialDependenceDisplay
# 1D PDP for single feature
fig, ax = plt.subplots(figsize=(8, 5))
PartialDependenceDisplay.from_estimator(
model, X, [feature_name],
grid_resolution=50, ax=ax
)
ax.set_title(f"Partial Dependence - {feature_name}")
fig.savefig(f"pdp_{feature_name}.png", dpi=150)
# 2D PDP for feature interaction
fig, ax = plt.subplots(figsize=(8, 6))
PartialDependenceDisplay.from_estimator(
model, X, [(feat_a, feat_b)], ax=ax
)
fig.savefig(f"pdp_interact_{feat_a}_x_{feat_b}.png", dpi=150)
```
## Model QA 中的应用
Model QA Specialist 使用 PDP 进行以下审计:
1. **方向性验证**:检查 PDP 曲线方向是否符合业务领域知识(如"收入↑ → 违约概率↓"
2. **非单调性检测**:识别模型在某些区间学习到的反直觉非单调关系
3. **交互效应识别**2D PDP 检测 top correlated feature pairs 的交互效应
4. **跨时间稳定性**:对比 Train vs OOT 的 PDP 曲线,识别特征关系的时间漂移
5. **SHAP 交叉验证**PDP 验证边际方向SHAP 验证精确归因,两者互补
## Relationship
- **依赖** [[SHAP]]SHAP 提供精确特征归因PDP 提供趋势可视化PDP 曲线形状与 SHAP beeswarm 的分布吻合
- **依赖** [[Population-Stability-Index]]PSI 捕捉特征分布漂移PDP 捕捉特征效应的变化,两者共同判断模型是否需要重训
- **支撑** [[Calibration-Testing]]PDP 揭示的非线性关系可能是校准问题的根源
- **支撑** [[specialized-model-qa]]SourceModel QA Specialist 的特征分析核心工具
## Key Limitations
- **强交互效应**当特征高度相关时PDP 可能产生误导性结论(忽略其他特征的条件分布)
- **异质性掩盖**:个体 ICE 曲线与平均 PDP 的差异反映异质性,忽略可能遗漏关键子群体
- **分类变量**:需预先分箱,箱的划分方式影响结果解释
- **高维特征**:超过 2 个特征的交互需用 SHAP interaction values 或 ALE plots

View File

@@ -0,0 +1,102 @@
---
title: "Population Stability Index"
type: concept
tags: [model-monitoring, feature-drift, model-governance]
last_updated: 2026-04-25
---
## Definition
群体稳定性指数Population Stability IndexPSI是衡量两个分布通常是开发样本 vs 实际样本)之间差异的量化指标,广泛用于监控机器学习模型输入特征和输出评分的分布漂移,是模型生命周期管理的核心监控工具。
## Algorithm
$$\text{PSI} = \sum_{i=1}^{n} (act_i - exp_i) \times \ln\left(\frac{act_i}{exp_i}\right)$$
其中:
- $act_i$ = 实际(当前)样本在分箱中的占比
- $exp_i$ = 期望(基准)样本在分箱中的占比
- 使用 **Laplace smoothing**(加 1 平滑)避免除零
## Interpretation Thresholds
| PSI Range | 判读 | 建议行动 |
|-----------|------|---------|
| < 0.10 | 🟢 无显著漂移 | 无需操作 |
| 0.100.25 | 🟡 中等漂移 | 调查原因,密切监控 |
| ≥ 0.25 | 🔴 显著漂移 | **立即采取行动**,考虑重训 |
## Implementation
```python
import numpy as np
import pandas as pd
def compute_psi(expected: pd.Series, actual: pd.Series, bins: int = 10) -> float:
"""
Compute Population Stability Index between two distributions.
Interpretation:
< 0.10 → No significant shift (green)
0.100.25 → Moderate shift, investigation recommended (amber)
>= 0.25 → Significant shift, action required (red)
"""
breakpoints = np.linspace(0, 100, bins + 1)
expected_pcts = np.percentile(expected.dropna(), breakpoints)
expected_counts = np.histogram(expected, bins=expected_pcts)[0]
actual_counts = np.histogram(actual, bins=expected_pcts)[0]
# Laplace smoothing
exp_pct = (expected_counts + 1) / (expected_counts.sum() + bins)
act_pct = (actual_counts + 1) / (actual_counts.sum() + bins)
psi = np.sum((act_pct - exp_pct) * np.log(act_pct / exp_pct))
return round(psi, 6)
def variable_stability_report(
df: pd.DataFrame,
date_col: str,
variables: list[str],
psi_threshold: float = 0.25,
) -> pd.DataFrame:
"""Monthly stability report for model features."""
periods = sorted(df[date_col].unique())
baseline = df[df[date_col] == periods[0]]
results = []
for var in variables:
for period in periods[1:]:
current = df[df[date_col] == period]
psi = compute_psi(baseline[var], current[var])
results.append({
"variable": var, "period": period, "psi": psi,
"flag": "🔴" if psi >= psi_threshold else ("🟡" if psi >= 0.10 else "🟢"),
})
return pd.DataFrame(results).pivot_table(
index="variable", columns="period", values="psi"
).round(4)
```
## Model QA 中的应用
Model QA Specialist 将 PSI 应用于以下场景:
1. **特征稳定性监控**:每月计算所有特征的 PSI识别漂移最早的预警信号
2. **评分分布监控**:模型输出的评分 PSI检测整体预测分布变化
3. **分段 PSI**:在子群体上分别计算,识别特定分段的漂移(整体 PSI 掩盖的局部问题)
4. **重训触发器**:将 PSI ≥ 0.25 设为自动重训的硬触发条件
## Relationship
- **被依赖** [[SHAP]]PSI 识别分布漂移SHAP 分析漂移后的特征贡献变化
- **被依赖** [[Discrimination-Metrics]]PSI 漂移通常先于 AUC/Gini 下降出现,是预警指标
- **被依赖** [[Calibration-Testing]]特征分布漂移PSI是校准失效的根本原因之一
- **支撑** [[specialized-model-qa]]SourceModel QA Specialist 的监控框架核心指标
## Key Insights
- **方向性陷阱**PSI 仅反映分布差异大小,不反映变化方向(高→低 或 低→高 均为漂移)
- **阈值依赖**0.1/0.25 阈值是行业惯例,具体阈值应基于业务风险调整
- **特征 vs 评分 PSI**:特征 PSI 先于评分 PSI 变化,是更敏感的早期预警
- **监控频率**:生产模型应至少每月计算一次,关键业务模型建议每周甚至每日

70
wiki/concepts/SHAP.md Normal file
View File

@@ -0,0 +1,70 @@
---
title: "SHAP (SHapley Additive exPlanations)"
type: concept
tags: [model-interpretability, feature-attribution, explainable-ai]
last_updated: 2026-04-25
---
## Definition
SHAPSHapley Additive exPlanations是一种基于博弈论 Shapley 值的模型可解释性框架为每个特征的贡献提供统一的量化度量。通过计算每个特征在所有可能的特征组合中的边际贡献均值SHAP 给出唯一且公平的归因值。
## Core Concepts
### Global Interpretability
- **SHAP Summary Plot (Beeswarm)**:同时展示特征值方向和影响幅度的散点图,横轴为 SHAP 值,纵轴为特征,颜色编码特征值高低
- **SHAP Bar Plot**:各特征 mean |SHAP| 排序,展示整体特征重要性
- **应用场景**:与文档化特征理由对比,识别未在方法论文档中讨论但实际影响显著的"隐性特征"
### Local Interpretability
- **SHAP Waterfall Plot**解释单个预测——从基础值base value出发逐特征展示其推动预测的方向和幅度
- **SHAP Force Plot**:可视化单个预测的特征贡献,常用于高风险决策解释
- **应用场景**边缘案例预测top/bottom decile、误分类记录的深度分析
### SHAP Interaction Values
- 检测特征之间的依赖和交互效应
- 将总 SHAP 贡献分解为:主效应 + 交互效应
- 用于识别模型学习到的非预期特征交互
## Usage
```python
import shap
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X)
# Global: beeswarm
shap.summary_plot(shap_values, X, show=False)
plt.savefig("shap_beeswarm.png", dpi=150)
# Global: bar
shap.summary_plot(shap_values, X, plot_type="bar", show=False)
plt.savefig("shap_importance.png", dpi=150)
# Local: waterfall
explanation = explainer(X.iloc[[idx]])
shap.plots.waterfall(explanation[0], show=False)
plt.savefig(f"shap_waterfall_{idx}.png", dpi=150)
```
## Model QA 中的应用
Model QA Specialist 使用 SHAP 进行以下审计:
1. **全局分析**:对比 SHAP 特征重要性与文档化特征理由,发现未记录的高贡献特征
2. **PDP 交叉验证**SHAP 分析结合 PDP 验证特征方向是否符合预期
3. **局部解释**:边缘案例的 SHAP waterfall 揭示模型决策机制
4. **稳定性监测**:跨时间窗口的 SHAP 排名变化反映特征重要性漂移
## Relationship
- **依赖** [[Population-Stability-Index]]PSI 监测特征分布漂移SHAP 监测特征贡献变化,两者结合才能完整评估模型健康度
- **依赖** [[Calibration-Testing]]SHAP 解释模型"为什么"预测,校准测试验证模型"多准确"预测
- **依赖** [[Discrimination-Metrics]]SHAP 贡献分析在 AUC/Gini 判定模型整体可用之后进行细节诊断
- **支撑** [[Partial-Dependence-Plots]]PDP 提供边际效应可视化SHAP 提供精确归因,两者互补
## Key Limitations
- 计算复杂度:精确 Shapley 值计算为指数级TreeExplainer 对树模型高效但对神经网络等黑盒模型需用 KernelExplainer采样近似
- 交互效应分离当特征高度相关时Shapley 值归因可能不稳定
- 基准依赖Shapley 值的解释力取决于基准base value的选取

View File

@@ -4,6 +4,9 @@
- [Overview](overview.md) — living synthesis
## Sources
- [2026-04-25] [Model QA Specialist](sources/specialized-model-qa.md)
- [2026-04-25] [Corporate Training Designer](sources/corporate-training-designer.md)
- [2026-04-25] [Cultural Intelligence Strategist](sources/specialized-cultural-intelligence-strategist.md)
- [2026-04-25] [Healthcare Marketing Compliance Specialist](sources/healthcare-marketing-compliance.md)
- [2026-04-24] [Workflow Architect Agent Personality](sources/specialized-workflow-architect.md)
- [2026-04-24] [Government Digital Presales Consultant](sources/government-digital-presales-consultant.md)
@@ -408,10 +411,7 @@
- [2026-04-20] [compliance-auditor](sources/compliance-auditor.md) — (expected: wiki/sources/compliance-auditor.md — source missing)
- [2026-04-20] [specialized-salesforce-architect](sources/specialized-salesforce-architect.md) — (expected: wiki/sources/specialized-salesforce-architect.md — source missing)
- [2026-04-20] [lsp-index-engineer](sources/lsp-index-engineer.md) — (expected: wiki/sources/lsp-index-engineer.md — source missing)
- [2026-04-20] [corporate-training-designer](sources/corporate-training-designer.md) — (expected: wiki/sources/corporate-training-designer.md — source missing)
- [2026-04-20] [automation-governance-architect](sources/automation-governance-architect.md) — (expected: wiki/sources/automation-governance-architect.md — source missing)
- [2026-04-20] [specialized-model-qa](sources/specialized-model-qa.md) — (expected: wiki/sources/specialized-model-qa.md — source missing)
- [2026-04-20] [Cultural Intelligence Strategist](sources/specialized-cultural-intelligence-strategist.md) — The Agency Specialized 部门文化包容性专家 Agent检测软件开发中的"隐性排斥"(命名规范、颜色语义、性别选项等),通过四阶段工作流(盲点审计→自主研究→结构修正→解释原理)实现架构级文化智能。
- [2026-04-20] [llm-wiki](sources/llm-wiki.md) — (expected: wiki/sources/llm-wiki.md — source missing)
- [2026-04-20] [baoyu-skills](sources/baoyu-skills.md) — (expected: wiki/sources/baoyu-skills.md — source missing)
- [Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog](sources/Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog.md) — (expected: wiki/sources/Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog.md — source missing)
@@ -757,6 +757,7 @@
- [Telnyx](entities/Telnyx.md)
- [Terraform](entities/Terraform.md)
- [Terragrunt](entities/Terragrunt.md)
- [The-Agency](entities/The-Agency.md)
- [Tiago-Forte](entities/Tiago-Forte.md)
- [TikTok-Ads](entities/TikTok-Ads.md)
- [tini](entities/tini.md)
@@ -790,19 +791,18 @@
- [矿神源](entities/矿神源.md)
- [网件RAX50](entities/网件RAX50.md)
- [苏东坡](entities/苏东坡.md)
- [The Agency](entities/The-Agency.md)
## Concepts
- [14种UML图](concepts/14种UML图.md)
- [7种视觉风格系统](concepts/7种视觉风格系统.md)
- [ABTesting](concepts/ABTesting.md)
- [Architectural-Empathy](concepts/Architectural-Empathy.md)
- [Account-Health-Score](concepts/Account-Health-Score.md)
- [Account-Tiering-Model](concepts/Account-Tiering-Model.md)
- [AccountArchitecture](concepts/AccountArchitecture.md)
- [ActionItemTracking](concepts/ActionItemTracking.md)
- [Active-Accountability](concepts/Active-Accountability.md)
- [Adaptive-Tone](concepts/Adaptive-Tone.md)
- [ADDIE-Model](concepts/ADDIE-Model.md)
- [AdExtensions](concepts/AdExtensions.md)
- [AdStrength](concepts/AdStrength.md)
- [Advantage+-Campaigns](concepts/Advantage+-Campaigns.md)
@@ -839,6 +839,7 @@
- [Analogy-as-Straitjacket](concepts/Analogy-as-Straitjacket.md)
- [Appearance-Anxiety](concepts/Appearance-Anxiety.md)
- [APT-仓库配置](concepts/APT-仓库配置.md)
- [Architectural-Empathy](concepts/Architectural-Empathy.md)
- [arXiv-API](concepts/arXiv-API.md)
- [Asset-Management](concepts/Asset-Management.md)
- [Atomic-Commit](concepts/Atomic-Commit.md)
@@ -856,6 +857,7 @@
- [BindMount](concepts/BindMount.md)
- [BI平台](concepts/BI平台.md)
- [Blocking](concepts/Blocking.md)
- [Bloom-认知分类](concepts/Bloom-认知分类.md)
- [Blue-Green-Deployment](concepts/Blue-Green-Deployment.md)
- [Blue-Hat-Logo](concepts/Blue-Hat-Logo.md)
- [BOOTSTRAP.md](concepts/BOOTSTRAP.md.md)
@@ -870,6 +872,7 @@
- [Business-Impact-Analysis](concepts/Business-Impact-Analysis.md)
- [Business-Knowledge-Base](concepts/Business-Knowledge-Base.md)
- [caffeinate](concepts/caffeinate.md)
- [Calibration-Testing](concepts/Calibration-Testing.md)
- [Call-Worthy-Threshold](concepts/Call-Worthy-Threshold.md)
- [Canary-Deployment](concepts/Canary-Deployment.md)
- [Canary-Release](concepts/Canary-Release.md)
@@ -959,6 +962,7 @@
- [DevOps-Maturity](concepts/DevOps-Maturity.md)
- [DevOpsCulture](concepts/DevOpsCulture.md)
- [DevSecOps](concepts/DevSecOps.md)
- [Discrimination-Metrics](concepts/Discrimination-Metrics.md)
- [DKIM-Email-Authentication](concepts/DKIM-Email-Authentication.md)
- [dm-verity](concepts/dm-verity.md)
- [DNS托管](concepts/DNS托管.md)
@@ -1024,6 +1028,7 @@
- [GitHub-Release-Monitoring](concepts/GitHub-Release-Monitoring.md)
- [Gitmoji-Commit](concepts/Gitmoji-Commit.md)
- [GitOps](concepts/GitOps.md)
- [Global-First-Architecture](concepts/Global-First-Architecture.md)
- [GPG-密钥验证](concepts/GPG-密钥验证.md)
- [Green-Computing](concepts/Green-Computing.md)
- [Hand-Tracking](concepts/Hand-Tracking.md)
@@ -1036,6 +1041,7 @@
- [Hierarchy-Agent-Pattern](concepts/Hierarchy-Agent-Pattern.md)
- [high-availability](concepts/high-availability.md)
- [HookBodyCTA](concepts/HookBodyCTA.md)
- [Hosmer-Lemeshow-Test](concepts/Hosmer-Lemeshow-Test.md)
- [HouseholdInventoryTracking](concepts/HouseholdInventoryTracking.md)
- [HTTPS自动化证书](concepts/HTTPS自动化证书.md)
- [Human-Handoff](concepts/Human-Handoff.md)
@@ -1062,6 +1068,7 @@
- [Intent-Classification](concepts/Intent-Classification.md)
- [Intentional-Cloud-Strategy](concepts/Intentional-Cloud-Strategy.md)
- [Inversion](concepts/Inversion.md)
- [Invisible-Exclusion](concepts/Invisible-Exclusion.md)
- [IP纯净度](concepts/IP纯净度.md)
- [ISOHybrid镜像](concepts/ISOHybrid镜像.md)
- [ITSM](concepts/ITSM.md)
@@ -1072,8 +1079,10 @@
- [Kanban](concepts/Kanban.md)
- [Keyword-Based-Monitoring](concepts/Keyword-Based-Monitoring.md)
- [Kill-Switch](concepts/Kill-Switch.md)
- [Kirkpatrick-四级评估](concepts/Kirkpatrick-四级评估.md)
- [Knock-out-Pattern](concepts/Knock-out-Pattern.md)
- [Knowledge-Base-RAG](concepts/Knowledge-Base-RAG.md)
- [Kolb-体验式学习圈](concepts/Kolb-体验式学习圈.md)
- [Kubernetes](concepts/Kubernetes.md)
- [Land-and-Expand](concepts/Land-and-Expand.md)
- [Landing-Zone-Architecture](concepts/Landing-Zone-Architecture.md)
@@ -1140,6 +1149,7 @@
- [Pain-Point-Mining](concepts/Pain-Point-Mining.md)
- [Paper-Abstract-Batch-Fetching](concepts/Paper-Abstract-Batch-Fetching.md)
- [Parallel-Agent-Execution](concepts/Parallel-Agent-Execution.md)
- [Partial-Dependence-Plots](concepts/Partial-Dependence-Plots.md)
- [Partition-Updates](concepts/Partition-Updates.md)
- [Passive-Learning](concepts/Passive-Learning.md)
- [passkey](concepts/passkey.md)
@@ -1160,6 +1170,7 @@
- [POC-Scoping](concepts/POC-Scoping.md)
- [Pod-Security-Context](concepts/Pod-Security-Context.md)
- [Policy-as-Code](concepts/Policy-as-Code.md)
- [Population-Stability-Index](concepts/Population-Stability-Index.md)
- [Portfolio-ROI](concepts/Portfolio-ROI.md)
- [PRD生成工作流](concepts/PRD生成工作流.md)
- [Pre-Build-Validation](concepts/Pre-Build-Validation.md)
@@ -1239,6 +1250,7 @@
- [Serverless-Computing](concepts/Serverless-Computing.md)
- [Service-Control-Policies-SCPs](concepts/Service-Control-Policies-SCPs.md)
- [SES-Sandbox-Mode](concepts/SES-Sandbox-Mode.md)
- [SHAP](concepts/SHAP.md)
- [Shared-Memory-Architecture](concepts/Shared-Memory-Architecture.md)
- [Shared-Responsibility-Model](concepts/Shared-Responsibility-Model.md)
- [SharedStateCoordination](concepts/SharedStateCoordination.md)

View File

@@ -1,3 +1,29 @@
## [2026-04-25] ingest | Model QA Specialist
- Source file: Agent/agency-agents/specialized/specialized-model-qa.md
- Status: ✅ 成功摄入
- Summary: Model QA Specialist——The Agency Specialized 部门的 ML/统计模型端到端独立审计专家 Agent核心方法10 大审计领域覆盖模型全生命周期(文档治理→数据重建→标签分析→分段评估→特征分析→模型复制→校准测试→性能监控→可解释性→业务影响),配套完整 Python 工具集PSI 监控、Hosmer-Lemeshow 校准检验、SHAP 可解释性分析、PDP 偏依赖图、KS/AUC/Gini 判别指标)。核心原则:独立性、可复现性、证据链完整。成功指标:审计发现 95%+ 被确认有效、零部署后失败。
- Concepts created: [[SHAP]](特征归因可解释性框架)、[[Calibration-Testing]](概率校准验证方法)、[[Discrimination-Metrics]](判别能力指标体系 AUC/Gini/KS、[[Partial-Dependence-Plots]](偏依赖图)、[[Population-Stability-Index]](群体稳定性指数)、[[Hosmer-Lemeshow-Test]](校准拟合优度检验)
- Entities created: The Agency Specialized 部门在多个来源中多次出现,本次检查 entities/ 目录已存在,未新建)
- Source page: wiki/sources/specialized-model-qa.md
- Notes: index.md 中原有 "source missing" 条目本次摄入后已更新为完整条目。overview.md Specialized 部门新增 Model QA Specialist 条目置于 cultural-intelligence-strategist 之后。与 [[multi-agent-system-reliability]] 存在潜在张力(对抗辩论 vs 统计检验),已在 Contradictions 中记录。6 个 Concept 页面创建前已做去重检查,确认均不存在。与 specialized-workflow-architectReality Checker 验证)构成质量保障互补,已在 overview.md 建立链接关系。
- Source file: Agent/agency-agents/specialized/corporate-training-designer.md
- Status: ✅ 成功摄入
- Summary: Corporate Training Designer——The Agency Specialized 部门的企业培训体系架构师 Agent核心方法ADDIE 教学设计模型分析→设计→开发→实施→评估、Kirkpatrick 四级评估反应→学习→行为→业务结果、Bloom 认知六层次、Kolb 体验式学习圈、OMO 混合学习(线上认知→线下实践→社群持续)。核心价值观:优秀培训的衡量标准不是"教了什么",而是"学员回去做了什么"。覆盖培训需求分析、课程体系设计、内容开发、内训师培养TTT、新员工培训、领导力发展HIPO、合规培训等全链路能力。
- Concepts created: [[ADDIE-Model]]ADDIE 教学设计模型)、[[Kirkpatrick-四级评估]](培训效果四级评估框架)、[[Bloom-认知分类]](认知六层次分类)、[[Kolb-体验式学习圈]](体验式学习循环)
- Entities created: [[The-Agency]]The Agency 多智能体系统组织147 个 Agent 跨 12 部门)
- Source page: wiki/sources/corporate-training-designer.md
- Notes: index.md 中原有早期条目本次为完整摄入。overview.md Specialized 部门新增 Corporate Training Designer 条目,并置于 Cultural Intelligence Strategist 之前按摄取顺序。4 个 Concept 页面创建前已做去重检查确认均不存在。Corporate Training Designer 与 specialized-workflow-architect、cultural-intelligence-strategist 形成系统性设计能力互补,在 overview.md 中已建立链接关系。Corporate Training Designer 与其他 Agent 无明显内容冲突。
- Source file: Agent/agency-agents/specialized/specialized-cultural-intelligence-strategist.md
- Status: ✅ 成功摄入
- Summary: Cultural Intelligence Strategist——The Agency Specialized 部门的文化包容性专家 Agent核心职责检测软件开发中的"隐性排斥"Invisible Exclusion包括 Western 默认命名结构、颜色语义冲突(红色=中国金融上涨、性别二元假设、RTL 阅读方向等。通过四阶段工作流(盲点审计→自主研究→结构修正→解释原理)提供架构级文化智能解决方案。核心价值:将国际化从"亡羊补牢"提升为"架构前提条件",拒绝表演性多元化,追求结构性包容。
- Concepts created: [[Invisible-Exclusion]](隐性排斥模式定义)、[[Architectural-Empathy]](结构性同理心哲学)、[[Global-First-Architecture]](国际化架构前提原则)
- Entities created: [[The-Agency]]The Agency 多智能体系统组织147 个 Agent 跨 12 部门)
- Source page: wiki/sources/specialized-cultural-intelligence-strategist.md
- Notes: index.md 中原有 "source missing" 条目本次摄入后已更新为完整条目。overview.md Specialized 部门新增 Cultural Intelligence Strategist 条目。Concept 页面创建前已做去重检查,确认 Invisible-Exclusion、Architectural-Empathy、Global-First-Architecture 三个概念此前均不存在。与 [[InclusiveVisualsSpecialist]]Design 部门包容性视觉专家)和 [[design-brand-guardian]](品牌守护)存在跨部门协同与张力关系,已在 overview.md 和 source page Contradictions 中记录。
## [2026-04-25] ingest | Workflow Architect Agent Personality
- Source file: Agent/agency-agents/specialized/specialized-workflow-architect.md
- Status: ✅ 成功摄入

View File

@@ -691,8 +691,12 @@ Key concepts: [[Django ORM]], [[Django REST Framework]], [[Django Admin 定制]]
|**[[specialized-workflow-architect]]**Workflow Architect工作流设计专家 Agent——The Agency Specialized 部门的工作流设计与系统建模专家,在代码编写前对系统所有路径进行穷举建模。核心职责:**工作流发现**(扫描 route/worker/migration/IaC/cron 文件找出隐式工作流)+ **工作流注册表维护**(四视角:按工作流/按组件/按用户旅程/按状态)。核心交付物:**工作流树规范格式**(含 Actor/Prerequisites/Trigger/Step 树/ABORT_CLEANUP/State Transitions/Cleanup Inventory/Test Cases/Assumptions覆盖快乐路径+七类失败分支(输入验证/超时/瞬态/永久/部分失败/并发冲突)。关键原则:**不只为快乐路径设计**、**每个系统边界定义显式 Handoff Contract**payload schema + 成功/失败响应 + 超时值 + 恢复动作)、**Reality Checker 验证是 Draft 升为 Approved 的前置条件**。Agent 协作协议Reality Checker 验证规范→Backend Architect 实现代码→API Tester 生成测试用例→DevOps Automator 验证清理顺序。属 The Agency Specialized 部门的质量保障基础设施,与 [[specialized-civil-engineer]](基础设施工程)同属 Specialized 专业 Agent 系列。
**[[corporate-training-designer]]**Corporate Training DesignerThe Agency Specialized 部门的企业培训体系架构师与课程开发专家——专注企业级培训需求分析、ADDIE/SAM 教学设计模型、混合学习项目、内训师培养TTT、领导力发展HIPO及 Kirkpatrick 四级培训效果评估。核心价值观:**优秀培训的衡量标准不是"教了什么",而是"学员回去做了什么"**。关键方法ADDIE 模型分析→设计→开发→实施→评估、Bloom 认知六层次、Kirkpatrick 四级评估反应→学习→行为→业务结果、Kolb 体验式学习圈、OMO 混合学习(线上"认知"→线下"实践"→社群"持续")。与 [[specialized-workflow-architect]](工作流设计)和 [[cultural-intelligence-strategist]](跨文化产品设计)形成系统性设计能力互补——分别应用于组织学习、软件工程和文化包容三大领域,共同构成 [[The Agency]] 的系统性设计矩阵。
**[[cultural-intelligence-strategist]]**Cultural Intelligence Strategist文化包容性专家 Agent——The Agency Specialized 部门的文化智能策略师,专门检测和消除软件开发中的"隐性排斥"Invisible Exclusion。核心方法**四阶段工作流**(盲点审计→自主研究→结构修正→解释原理)。典型案例:刚性 First Name / Last Name 字段在 APAC 市场失效(改为 Full Name 或 Preferred Name中国金融应用中红色表示"上涨"而非"错误"(需辅以文字/图标说明RTL 阅读方向、多日历系统、不同文化隐私期望等全局包容性设计。核心原则:**国际化是架构前提条件,而非亡羊补牢****拒绝表演性多元化**——仅在首页放多元人群图但产品流程本身仍具排斥性不可接受。核心价值将文化智能CQ从"后期本地化补丁"提升为"架构级前提条件"。与 [[InclusiveVisualsSpecialist]](包容性视觉)互补——前者覆盖整个产品工作流(含表单、交互、颜色语义),后者专注于 AI 生成图像的表征偏见消除;与 [[design-brand-guardian]] 在特定市场语境下存在张力——品牌一致性要求与为不同市场调整视觉语义的必要性需要平衡。
**[[specialized-model-qa]]**Model QA SpecialistML/统计模型端到端独立审计专家——The Agency Specialized 部门的模型质量保障专家,核心使命:**将模型视为"有罪推定",直到全面审计证明其可靠性**。独立于模型构建者运行通过证据驱动的分析发现模型在文档、数据、特征、性能、校准、可解释性、公平性等各环节的问题并量化业务影响。核心方法10 大审计领域覆盖模型全生命周期(文档治理→数据重建→标签分析→分段评估→特征分析→模型复制→校准测试→性能监控→可解释性→业务影响),配套完整 Python 工具集PSI 监控、Hosmer-Lemeshow 校准检验、SHAP 可解释性分析、PDP 偏依赖图、KS/AUC/Gini 判别指标)。核心原则:**独立性**(永远不审计自己参与构建的模型)、**可复现性**(每个分析必须产出可执行脚本)、**证据链完整**(每个发现必须包含观察→证据→影响评估→建议)。成功指标:审计发现 95%+ 被模型所有者确认为有效、零部署后失败。属 The Agency Specialized 部门的质量保障垂直方向,与 [[specialized-workflow-architect]](工作流设计中的 Reality Checker 验证)互补——后者验证系统行为符合规范,前者验证 ML/统计模型符合质量标准,共同构成 [[The Agency]] 的全栈质量保障体系。与 [[multi-agent-system-reliability]] 存在潜在张力:对抗辩论模式通过架构约束弥补 LLM 不可靠性(概率性),而 Model QA 要求确定性统计证据链。
## Conflict Areas
1. **Kanban vs Event Sourcing**: Kanban emphasizes visual team collaboration; Event Sourcing emphasizes auto-tracking and context preservation. **[[Project State Management]]**事件驱动看板替代方案vs 传统 PM 工具。核心差异:手动拖拽 vs 自然语言输入;静态快照 vs 全历史保留;无上下文 vs 完整决策链。**[[Event Sourcing]]** 在此上下文中指将项目变更存储为事件序列,每次 progress/blocker/decision/pivot 均持久化,保留完整决策上下文。

View File

@@ -0,0 +1,49 @@
---
title: "Corporate Training Designer"
type: source
tags: []
date: 2026-04-25
---
## Source File
- [[Agent/agency-agents/specialized/corporate-training-designer.md]]
## Summary用中文描述
- 核心主题企业培训体系架构师与课程开发专家Corporate Training Designer—— 专注企业级培训需求分析、ADDIE/SAM 教学设计模型、混合学习项目设计、内训师培养、领导力发展项目,以及 Kirkpatrick 四级培训效果评估体系。
- 问题域:企业培训中"为培训而培训"的现象普遍存在——培训目标不可衡量、课程内容脱离业务场景、学习效果无法落地到行为改变。
- 方法/机制:从业务问题出发,以能力差距分析为基础,采用 ADDIE/SAM 模型设计课程体系,通过 OMO 混合学习、Kolb 体验式学习、翻转课堂等方法交付,并通过 Kirkpatrick 四级评估验证业务价值。
- 结论/价值:优秀培训的衡量标准不是"教了什么",而是"学员回去做了什么"——数据驱动的培训体系能真正提升员工能力与组织绩效。
## Key Claims用中文描述
- 培训设计必须从业务问题出发,而非从"我们有什么课"出发;培训目标必须可衡量,而非"提高沟通能力"这类模糊表述。
- 所有案例必须改编自真实业务场景,拒绝脱离实际的"教材式案例";课程内容须每年至少更新一次。
- 每项培训项目必须有评估计划——高投资(领导力、关键岗位)必须追踪到 Kirkpatrick Level 3行为改变
- 合规培训须覆盖全体员工记录完整360 度反馈结果仅限本人及直属上级知晓。
## Key Quotes
> "Good training isn't about 'what was taught' — it's about 'what learners do differently when they go back to work.'" — 培训设计的核心价值观
> "Training objectives must be measurable — not 'improve communication skills,' but 'increase the percentage of new hires independently completing client proposals within 3 months from 40% to 70%.'" — 培训目标的 SMART 原则
> "For this leadership program, I recommend replacing pure classroom lectures with 'business challenge projects.' Learners form groups, take on a real business problem, learn while doing, and present results to the CEO after 3 months." — 成人学习理论的应用
> "Data from the last sales new hire boot camp: trainees had a 23% higher first-month deal close rate than non-trainees, with an average of 18,000 yuan more in per-capita output." — 培训 ROI 的量化证明
## Key Concepts
- [[ADDIE 模型]]Analysis分析→ Design设计→ Development开发→ Implementation实施→ Evaluation评估每个阶段有明确交付物是教学设计的基础框架。
- [[SAM 模型]]Successive Approximation Model适合快速迭代场景通过"原型 → 评审 → 修订"循环缩短上线时间。
- [[Kirkpatrick 四级评估]]Level 1 反应满意度、Level 2 学习知识技能掌握、Level 3 行为行为改变、Level 4 结果(业务指标变化)。
- [[Bloom 认知分类]]:从记忆→理解→应用→分析→评价→创造,逐级提升学习目标设计深度。
- [[Kolb 体验式学习圈]]:具体经验 → 反思观察 → 抽象概念化 → 主动实验,闭环驱动学习转化。
- [[OMO 混合学习]]Online-Merge-Offline线上解决"认知"、线下解决"实践"、学习社群解决"持续"。
- [[TTT]]Train the Trainer内训师培养体系——成人学习原则、课程开发技巧、表达与呈现技能、课堂管理与互动技巧、课件设计标准。
- [[HIPO]]High-Potential Talent Program高潜人才培养项目通过 IDP个人发展计划、轮岗、导师辅导、挑战性任务加速人才成长。
- [[ADDIE 模型]]微课5-15 分钟)、案例教学、沙盘模拟、剧本杀式沉浸体验培训等多元内容形式。
## Key Entities
- [[The Agency]]:该 Agent 所属的 Agent 系统生态。
## Connections
- [[Specialized Workflow Architect]] ← related_to ← [[Corporate Training Designer]]:两者均涉及工作流程设计,但前者专注软件工程流程,后者专注组织学习流程。
- [[Specialized Cultural Intelligence Strategist]] ← related_to ← [[Corporate Training Designer]]:两者均涉及跨文化能力建设,但前者专注产品文化包容,后者专注培训内容的文化适配。
- [[Specialized HR Onboarding]] ← extends ← [[Corporate Training Designer]]:新员工培训是 Corporate Training Designer 的重要子领域。
## Contradictions
- (暂无已知冲突。该 Agent 专注于企业内部培训体系,与其他 Agent 在应用场景上有明显差异。)

View File

@@ -0,0 +1,50 @@
---
title: "Model QA Specialist"
type: source
tags: []
date: 2026-04-25
---
## Source File
- [[Agent/agency-agents/specialized/specialized-model-qa.md]]
## Summary用中文描述
- 核心主题:机器学习与统计模型的全生命周期端到端独立审计方法论
- 问题域:模型质量管理、模型风险控制、合规性验证、生产监控
- 方法/机制10大审计领域文档治理→数据重建→特征分析→模型复制→校准测试→性能监控→可解释性→公平性→业务影响→报告配套 PSI/Hosmer-Lemeshow/SHAP/PDP 等量化工具
- 结论/价值:将模型视为"有罪推定"——每个模型必须经过全面审计并以证据支撑结论,独立于模型构建者运行,确保生产部署前发现所有潜在问题
## Key Claims用中文描述
- 模型审计师必须保持绝对独立性——永远不审计自己参与构建的模型
- 每次分析必须产生完全可复现的脚本,从原始数据到最终输出全链路可追溯
- 每个发现必须包含:观察→证据→影响评估→建议,缺一不可
- PSI ≥ 0.25 表示显著分布漂移,需立即采取行动
- Hosmer-Lemeshow p-value < 0.05 表示显著校准错误
## Key Quotes
> "You treat every model as guilty until proven sound." — 核心审计哲学
> "PSI >= 0.25 → Significant shift, action required (red)" — PSI 判读标准
> "Never audit a model you participated in building" — 独立性原则
> "Every finding must include: observation, evidence, impact assessment, and recommendation" — 证据链要求
## Key Concepts
- [[SHAP]]SHapley Additive exPlanations — 全局和局部特征贡献解释的核心工具
- [[Calibration-Testing]]:概率校准验证方法——确保模型预测概率与实际频率一致
- [[Discrimination-Metrics]]判别能力指标体系——AUC/Gini/KS 等衡量模型区分能力
- [[Partial-Dependence-Plots]]:偏依赖图——特征与预测之间的边际效应可视化
- [[Population-Stability-Index]]:群体稳定性指数——衡量特征分布随时间的漂移程度
- [[Hosmer-Lemeshow-Test]]:校准度拟合优度检验——统计判断预测概率与实际观测的一致性
## Key Entities
- The Agency Specialized 部门:该 Agent 所属的专业化 Agent 部门,涵盖医疗合规、文化智能、工作流架构、模型 QA 等垂直专业领域
## Connections
- [[Corporate-Training-Designer]] ← 质量保证 ← [[specialized-model-qa]]
- [[specialized-model-qa]] ← 审计输入 ← [[specialized-workflow-architect]]
- [[Agentic-Identity-&-Trust-Architect]] ← 安全基础 ← [[specialized-model-qa]]QA 报告的签名验证依赖身份基础设施)
## Contradictions
- 与 [[multi-agent-system-reliability]] 的对抗辩论模式存在潜在张力:
- 冲突点multi-agent-system-reliability 主张用对抗辩论Generator→Critic→Judge消除 LLM 幻觉Model QA Specialist 要求确定性证据链LLM 的概率性本质与之矛盾
- 当前观点Model QA Specialist 通过严格的统计检验HL test、PSI提供确定性判断不依赖 LLM 自我批判
- 对方观点:对抗辩论通过架构约束弥补 LLM 不可靠性,适合快速迭代;统计检验需要完整数据,适合深度审计