Sync: add model evaluation and training notes
This commit is contained in:
@@ -691,8 +691,12 @@ Key concepts: [[Django ORM]], [[Django REST Framework]], [[Django Admin 定制]]
|
||||
|
||||
|**[[specialized-workflow-architect]]**(Workflow Architect):工作流设计专家 Agent——The Agency Specialized 部门的工作流设计与系统建模专家,在代码编写前对系统所有路径进行穷举建模。核心职责:**工作流发现**(扫描 route/worker/migration/IaC/cron 文件找出隐式工作流)+ **工作流注册表维护**(四视角:按工作流/按组件/按用户旅程/按状态)。核心交付物:**工作流树规范格式**(含 Actor/Prerequisites/Trigger/Step 树/ABORT_CLEANUP/State Transitions/Cleanup Inventory/Test Cases/Assumptions),覆盖快乐路径+七类失败分支(输入验证/超时/瞬态/永久/部分失败/并发冲突)。关键原则:**不只为快乐路径设计**、**每个系统边界定义显式 Handoff Contract**(payload schema + 成功/失败响应 + 超时值 + 恢复动作)、**Reality Checker 验证是 Draft 升为 Approved 的前置条件**。Agent 协作协议:Reality Checker 验证规范→Backend Architect 实现代码→API Tester 生成测试用例→DevOps Automator 验证清理顺序。属 The Agency Specialized 部门的质量保障基础设施,与 [[specialized-civil-engineer]](基础设施工程)同属 Specialized 专业 Agent 系列。
|
||||
|
||||
**[[corporate-training-designer]]**(Corporate Training Designer):The Agency Specialized 部门的企业培训体系架构师与课程开发专家——专注企业级培训需求分析、ADDIE/SAM 教学设计模型、混合学习项目、内训师培养(TTT)、领导力发展(HIPO)及 Kirkpatrick 四级培训效果评估。核心价值观:**优秀培训的衡量标准不是"教了什么",而是"学员回去做了什么"**。关键方法:ADDIE 模型(分析→设计→开发→实施→评估)、Bloom 认知六层次、Kirkpatrick 四级评估(反应→学习→行为→业务结果)、Kolb 体验式学习圈、OMO 混合学习(线上"认知"→线下"实践"→社群"持续")。与 [[specialized-workflow-architect]](工作流设计)和 [[cultural-intelligence-strategist]](跨文化产品设计)形成系统性设计能力互补——分别应用于组织学习、软件工程和文化包容三大领域,共同构成 [[The Agency]] 的系统性设计矩阵。
|
||||
|
||||
**[[cultural-intelligence-strategist]]**(Cultural Intelligence Strategist):文化包容性专家 Agent——The Agency Specialized 部门的文化智能策略师,专门检测和消除软件开发中的"隐性排斥"(Invisible Exclusion)。核心方法:**四阶段工作流**(盲点审计→自主研究→结构修正→解释原理)。典型案例:刚性 First Name / Last Name 字段在 APAC 市场失效(改为 Full Name 或 Preferred Name);中国金融应用中红色表示"上涨"而非"错误"(需辅以文字/图标说明);RTL 阅读方向、多日历系统、不同文化隐私期望等全局包容性设计。核心原则:**国际化是架构前提条件,而非亡羊补牢**;**拒绝表演性多元化**——仅在首页放多元人群图但产品流程本身仍具排斥性不可接受。核心价值:将文化智能(CQ)从"后期本地化补丁"提升为"架构级前提条件"。与 [[InclusiveVisualsSpecialist]](包容性视觉)互补——前者覆盖整个产品工作流(含表单、交互、颜色语义),后者专注于 AI 生成图像的表征偏见消除;与 [[design-brand-guardian]] 在特定市场语境下存在张力——品牌一致性要求与为不同市场调整视觉语义的必要性需要平衡。
|
||||
|
||||
**[[specialized-model-qa]]**(Model QA Specialist):ML/统计模型端到端独立审计专家——The Agency Specialized 部门的模型质量保障专家,核心使命:**将模型视为"有罪推定",直到全面审计证明其可靠性**。独立于模型构建者运行,通过证据驱动的分析发现模型在文档、数据、特征、性能、校准、可解释性、公平性等各环节的问题,并量化业务影响。核心方法:10 大审计领域覆盖模型全生命周期(文档治理→数据重建→标签分析→分段评估→特征分析→模型复制→校准测试→性能监控→可解释性→业务影响),配套完整 Python 工具集(PSI 监控、Hosmer-Lemeshow 校准检验、SHAP 可解释性分析、PDP 偏依赖图、KS/AUC/Gini 判别指标)。核心原则:**独立性**(永远不审计自己参与构建的模型)、**可复现性**(每个分析必须产出可执行脚本)、**证据链完整**(每个发现必须包含观察→证据→影响评估→建议)。成功指标:审计发现 95%+ 被模型所有者确认为有效、零部署后失败。属 The Agency Specialized 部门的质量保障垂直方向,与 [[specialized-workflow-architect]](工作流设计中的 Reality Checker 验证)互补——后者验证系统行为符合规范,前者验证 ML/统计模型符合质量标准,共同构成 [[The Agency]] 的全栈质量保障体系。与 [[multi-agent-system-reliability]] 存在潜在张力:对抗辩论模式通过架构约束弥补 LLM 不可靠性(概率性),而 Model QA 要求确定性统计证据链。
|
||||
|
||||
## Conflict Areas
|
||||
|
||||
1. **Kanban vs Event Sourcing**: Kanban emphasizes visual team collaboration; Event Sourcing emphasizes auto-tracking and context preservation. **[[Project State Management]]**(事件驱动看板替代方案)vs 传统 PM 工具。核心差异:手动拖拽 vs 自然语言输入;静态快照 vs 全历史保留;无上下文 vs 完整决策链。**[[Event Sourcing]]** 在此上下文中指将项目变更存储为事件序列,每次 progress/blocker/decision/pivot 均持久化,保留完整决策上下文。
|
||||
|
||||
Reference in New Issue
Block a user