Sync: add model evaluation and training notes

2026-04-25 08:52:32 +08:00
parent 77fae85f60
commit 6006601b6b
16 changed files with 2124 additions and 5 deletions
--- a/wiki/overview.md
+++ b/wiki/overview.md
@@ -691,8 +691,12 @@ Key concepts: [[Django ORM]], [[Django REST Framework]], [[Django Admin 定制]]

 |**[[specialized-workflow-architect]]**（Workflow Architect）：工作流设计专家 Agent——The Agency Specialized 部门的工作流设计与系统建模专家，在代码编写前对系统所有路径进行穷举建模。核心职责：**工作流发现**（扫描 route/worker/migration/IaC/cron 文件找出隐式工作流）+ **工作流注册表维护**（四视角：按工作流/按组件/按用户旅程/按状态）。核心交付物：**工作流树规范格式**（含 Actor/Prerequisites/Trigger/Step 树/ABORT_CLEANUP/State Transitions/Cleanup Inventory/Test Cases/Assumptions），覆盖快乐路径+七类失败分支（输入验证/超时/瞬态/永久/部分失败/并发冲突）。关键原则：**不只为快乐路径设计**、**每个系统边界定义显式 Handoff Contract**（payload schema + 成功/失败响应 + 超时值 + 恢复动作）、**Reality Checker 验证是 Draft 升为 Approved 的前置条件**。Agent 协作协议：Reality Checker 验证规范→Backend Architect 实现代码→API Tester 生成测试用例→DevOps Automator 验证清理顺序。属 The Agency Specialized 部门的质量保障基础设施，与 [[specialized-civil-engineer]]（基础设施工程）同属 Specialized 专业 Agent 系列。

+**[[corporate-training-designer]]**（Corporate Training Designer）：The Agency Specialized 部门的企业培训体系架构师与课程开发专家——专注企业级培训需求分析、ADDIE/SAM 教学设计模型、混合学习项目、内训师培养（TTT）、领导力发展（HIPO）及 Kirkpatrick 四级培训效果评估。核心价值观：**优秀培训的衡量标准不是"教了什么"，而是"学员回去做了什么"**。关键方法：ADDIE 模型（分析→设计→开发→实施→评估）、Bloom 认知六层次、Kirkpatrick 四级评估（反应→学习→行为→业务结果）、Kolb 体验式学习圈、OMO 混合学习（线上"认知"→线下"实践"→社群"持续"）。与 [[specialized-workflow-architect]]（工作流设计）和 [[cultural-intelligence-strategist]]（跨文化产品设计）形成系统性设计能力互补——分别应用于组织学习、软件工程和文化包容三大领域，共同构成 [[The Agency]] 的系统性设计矩阵。
+
 **[[cultural-intelligence-strategist]]**（Cultural Intelligence Strategist）：文化包容性专家 Agent——The Agency Specialized 部门的文化智能策略师，专门检测和消除软件开发中的"隐性排斥"（Invisible Exclusion）。核心方法：**四阶段工作流**（盲点审计→自主研究→结构修正→解释原理）。典型案例：刚性 First Name / Last Name 字段在 APAC 市场失效（改为 Full Name 或 Preferred Name）；中国金融应用中红色表示"上涨"而非"错误"（需辅以文字/图标说明）；RTL 阅读方向、多日历系统、不同文化隐私期望等全局包容性设计。核心原则：**国际化是架构前提条件，而非亡羊补牢**；**拒绝表演性多元化**——仅在首页放多元人群图但产品流程本身仍具排斥性不可接受。核心价值：将文化智能（CQ）从"后期本地化补丁"提升为"架构级前提条件"。与 [[InclusiveVisualsSpecialist]]（包容性视觉）互补——前者覆盖整个产品工作流（含表单、交互、颜色语义），后者专注于 AI 生成图像的表征偏见消除；与 [[design-brand-guardian]] 在特定市场语境下存在张力——品牌一致性要求与为不同市场调整视觉语义的必要性需要平衡。

+**[[specialized-model-qa]]**（Model QA Specialist）：ML/统计模型端到端独立审计专家——The Agency Specialized 部门的模型质量保障专家，核心使命：**将模型视为"有罪推定"，直到全面审计证明其可靠性**。独立于模型构建者运行，通过证据驱动的分析发现模型在文档、数据、特征、性能、校准、可解释性、公平性等各环节的问题，并量化业务影响。核心方法：10 大审计领域覆盖模型全生命周期（文档治理→数据重建→标签分析→分段评估→特征分析→模型复制→校准测试→性能监控→可解释性→业务影响），配套完整 Python 工具集（PSI 监控、Hosmer-Lemeshow 校准检验、SHAP 可解释性分析、PDP 偏依赖图、KS/AUC/Gini 判别指标）。核心原则：**独立性**（永远不审计自己参与构建的模型）、**可复现性**（每个分析必须产出可执行脚本）、**证据链完整**（每个发现必须包含观察→证据→影响评估→建议）。成功指标：审计发现 95%+ 被模型所有者确认为有效、零部署后失败。属 The Agency Specialized 部门的质量保障垂直方向，与 [[specialized-workflow-architect]]（工作流设计中的 Reality Checker 验证）互补——后者验证系统行为符合规范，前者验证 ML/统计模型符合质量标准，共同构成 [[The Agency]] 的全栈质量保障体系。与 [[multi-agent-system-reliability]] 存在潜在张力：对抗辩论模式通过架构约束弥补 LLM 不可靠性（概率性），而 Model QA 要求确定性统计证据链。
+
 ## Conflict Areas

 1. **Kanban vs Event Sourcing**: Kanban emphasizes visual team collaboration; Event Sourcing emphasizes auto-tracking and context preservation. **[[Project State Management]]**（事件驱动看板替代方案）vs 传统 PM 工具。核心差异：手动拖拽 vs 自然语言输入；静态快照 vs 全历史保留；无上下文 vs 完整决策链。**[[Event Sourcing]]** 在此上下文中指将项目变更存储为事件序列，每次 progress/blocker/decision/pivot 均持久化，保留完整决策上下文。