Sync: add automation governance notes

2026-04-25 13:11:48 +08:00
parent e812681628
commit 9fccf27053
14 changed files with 840 additions and 47 deletions
--- a/wiki/concepts/AutomationGovernance.md
+++ b/wiki/concepts/AutomationGovernance.md
@@ -0,0 +1,37 @@
+---
+title: "AutomationGovernance"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+# AutomationGovernance（自动化治理）
+
+## Definition
+通过决策框架和标准，对业务流程自动化进行事前评估、事中监控和事后审计的完整治理体系。
+
+## Core Framework
+
+### Four Evaluation Dimensions
+1. **Time Savings Per Month**（每月时间节省）：节省是否重复发生且数额可观；流程频率是否足以支撑自动化开销
+2. **Data Criticality**（数据关键性）：是否涉及客户/财务/合同/日程记录；数据错误/延迟/重复/缺失的影响是什么
+3. **External Dependency Risk**（外部依赖风险）：链条中涉及多少外部 API/服务；它们是否稳定、有文档、可观测
+4. **Scalability**（可扩展性）：1x 到 100x 时，重试、去重、限流是否仍能正常工作；异常处理在量级下是否可管理
+
+### Five Verdicts
+| 裁决 | 条件 |
+|------|------|
+| **APPROVE** | 价值强、风险可控、架构可维护 |
+| **APPROVE AS PILOT** | 价值可期但需限制试点范围 |
+| **PARTIAL AUTOMATION ONLY** | 仅自动化安全段落，保留人工检查点 |
+| **DEFER** | 流程不成熟、价值不明确或依赖不稳定 |
+| **REJECT** | 经济价值弱或运营/合规风险不可接受 |
+
+## Related Concepts
+- [[N8nWorkflowStandard]]：n8n 编排工具的标准工作流模板
+- [[DecisionFramework]]：本概念的评估维度体系
+- [[ReliabilityBaseline]]：生产级工作流的可靠性最低要求
+- [[IntegrationGovernance]]：集成接入的治理规范
+
+## Sources
+- [[automation-governance-architect]]（primary）
--- a/wiki/concepts/DecisionFramework.md
+++ b/wiki/concepts/DecisionFramework.md
@@ -0,0 +1,54 @@
+---
+title: "DecisionFramework"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+# DecisionFramework（决策框架）
+
+## Definition
+在 [[AutomationGovernance]] 中用于评估自动化请求的四维分析体系，通过结构化打分决定是否推进自动化实施。
+
+## Four Evaluation Dimensions
+
+### 1. Time Savings Per Month（每月时间节省）
+- **问题**：节省是否重复发生且数额可观？流程频率是否足以支撑自动化开销？
+- **评估**：月度节省工时 × 平均时薪 × 12 = 年度 ROI
+
+### 2. Data Criticality（数据关键性）
+- **问题**：是否涉及客户、财务、合同或日程记录？错误/延迟/重复/缺失的影响是什么？
+- **评估**：数据错误的潜在业务损失 × 发生概率 = 风险暴露值
+
+### 3. External Dependency Risk（外部依赖风险）
+- **问题**：链条中涉及多少外部 API/服务？它们是否稳定、有文档、可观测？
+- **评估**：每个外部依赖的 SLA × 失败传播范围 = 系统脆弱性评分
+
+### 4. Scalability（可扩展性）
+- **问题**：1x 到 100x 时，重试、去重、限流是否仍能正常工作？异常处理在量级下是否可管理？
+- **评估**：峰值负载测试结果 → 是否需要架构调整
+
+## Five Verdicts
+
+| 裁决 | 条件 | 描述 |
+|------|------|------|
+| **APPROVE** | 强价值 + 可控风险 + 可维护架构 | 直接推进生产实施 |
+| **APPROVE AS PILOT** | 价值可期 + 有限试点 | 受控范围内验证后再决策 |
+| **PARTIAL AUTOMATION ONLY** | 仅自动化安全段落 | 保留人工检查点，高风险环节人工介入 |
+| **DEFER** | 流程不成熟/价值不明/依赖不稳定 | 等待条件成熟 |
+| **REJECT** | 经济价值弱或不可接受的运营/合规风险 | 不实施 |
+
+## Non-Negotiable Rules
+- 不得仅因技术可行就批准自动化
+- 不得在未经明确批准的情况下直接修改关键生产流程
+- 简单健壮优于精巧脆弱
+- 每个推荐必须包含降级方案和责任人
+- 无文档和测试证据不得标记为"完成"
+
+## Related Concepts
+- [[AutomationGovernance]]：决策框架所属的治理体系
+- [[ReliabilityBaseline]]：通过评估后必须满足的可靠性标准
+- [[N8nWorkflowStandard]]：批准实施后的标准工作流模板
+
+## Sources
+- [[automation-governance-architect]]（primary）
--- a/wiki/concepts/IntegrationGovernance.md
+++ b/wiki/concepts/IntegrationGovernance.md
@@ -0,0 +1,54 @@
+---
+title: "IntegrationGovernance"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+# IntegrationGovernance（集成治理）
+
+## Definition
+对每个接入系统的角色、权限、数据流向和失败模式进行明确定义的治理规范，确保多系统协作的清晰性和可审计性。
+
+## Core Principle
+> **"No integration is approved without source-of-truth clarity."**
+> （未经明确数据权威来源，不得批准任何集成。）
+
+## Required Definitions Per Connected System
+
+| 维度 | 描述 |
+|------|------|
+| **System Role & Source of Truth** | 该系统在整个数据流中的角色，以及谁是数据的权威来源 |
+| **Auth Method & Token Lifecycle** | 认证方式（API Key / OAuth / JWT 等）和令牌刷新策略 |
+| **Trigger Model** | 触发方式（WebHook / Polling / Event Bus / Scheduled） |
+| **Field Mappings & Transformations** | 输入/输出字段映射及数据转换规则 |
+| **Write-back Permissions & Read-only Fields** | 写回权限范围和只读字段清单 |
+| **Rate Limits & Failure Modes** | API 速率限制及常见失败场景处理 |
+| **Owner & Escalation Path** | 系统负责人及问题升级路径 |
+
+## Integration Approval Checklist
+- [ ] 数据权威来源已明确定义
+- [ ] 认证方式已配置且令牌刷新机制已实现
+- [ ] 触发模型已选定并实现
+- [ ] 字段映射已文档化
+- [ ] 写回权限已获授权方批准
+- [ ] 速率限制和失败模式已评估
+- [ ] 负责人已指定并知晓升级路径
+- [ ] 集成已通过 [[ReliabilityBaseline]] 中的外部依赖失败测试
+
+## Re-Audit Triggers（重审计触发条件）
+以下任一情况发生时，需重新评估现有集成：
+- API 或 Schema 发生变更
+- 错误率显著上升
+- 业务容量大幅增长
+- 合规要求发生变化
+- 反复出现人工修复的情况
+
+## Related Concepts
+- [[AutomationGovernance]]：集成治理是自动化治理的核心组成部分
+- [[ReliabilityBaseline]]：通过集成治理确保整个系统链路的可靠性
+- [[N8nWorkflowStandard]]：n8n 工作流中的"External Actions"步骤需遵循集成治理规范
+- [[ReAuditTriggers]]：重审计触发条件
+
+## Sources
+- [[automation-governance-architect]]（primary）
--- a/wiki/concepts/N8nWorkflowStandard.md
+++ b/wiki/concepts/N8nWorkflowStandard.md
@@ -0,0 +1,43 @@
+---
+title: "N8nWorkflowStandard"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+# N8nWorkflowStandard（n8n 工作流标准）
+
+## Definition
+n8n 编排的生产级工作流必须遵循的 10 步标准结构，确保每个自动化链路具备完整的可靠性、可审计性和可恢复能力。
+
+## Ten-Step Structure
+
+1. **Trigger**（触发器）：工作流的启动条件（定时/Webhook/API/事件）
+2. **Input Validation**（输入验证）：校验触发数据格式和必填字段
+3. **Data Normalization**（数据规范化）：统一字段格式、类型转换
+4. **Business Logic**（业务逻辑）：核心处理步骤
+5. **External Actions**（外部操作）：对外部系统的写操作（API 调用、数据库写入）
+6. **Result Validation**（结果验证）：确认外部操作返回符合预期
+7. **Logging / Audit Trail**（日志/审计跟踪）：记录完整执行轨迹
+8. **Error Branch**（错误分支）：异常处理的专门路径
+9. **Fallback / Manual Recovery**（降级/人工恢复）：无法自动恢复时的兜底方案
+10. **Completion / Status Writeback**（完成/状态回写）：更新任务状态并通知相关方
+
+## Naming Convention
+```
+[ENV]-[SYSTEM]-[PROCESS]-[ACTION]-v[MAJOR.MINOR]
+```
+示例：`PROD-CRM-LeadIntake-CreateRecord-v1.0`
+
+规则：
+- Major version：破坏性逻辑变更
+- Minor version：向后兼容改进
+- 禁止模糊命名（"final"/"new test"/"fix2"）
+
+## Related Concepts
+- [[ReliabilityBaseline]]：每个工作流必须包含的可靠性组件
+- [[AutomationGovernance]]：治理框架决定哪些工作流值得实施
+- [[IntegrationGovernance]]：外部系统集成的治理规范
+
+## Sources
+- [[automation-governance-architect]]（primary）
--- a/wiki/concepts/ReAuditTriggers.md
+++ b/wiki/concepts/ReAuditTriggers.md
@@ -0,0 +1,54 @@
+---
+title: "ReAuditTriggers"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+# ReAuditTriggers（重审计触发条件）
+
+## Definition
+触发现有自动化流程重新审计的事件条件，防止系统在外部环境变化后继续以过时假设运行。
+
+## Trigger Conditions
+
+### 1. API or Schema Changes（API 或 Schema 变更）
+外部依赖的 API 版本升级、字段类型变化、必填字段增减等，均可能破坏现有工作流逻辑。
+**行动**：重新验证字段映射、输入验证和错误处理是否仍有效。
+
+### 2. Error Rate Increases（错误率上升）
+当某工作流的错误率超过基线阈值（如 >1%），可能是：
+- 隐性依赖断裂
+- 上游数据质量恶化
+- 限流策略收紧
+**行动**：追踪错误日志，定位根本原因，重新评估风险评分。
+
+### 3. Volume Increases Significantly（容量大幅增长）
+业务量从 1x 增长到 10x/100x 时，以下假设可能失效：
+- 重试次数和退避策略
+- 去重机制的处理能力
+- 外部 API 速率限制
+**行动**：重新执行 [[DecisionFramework]] 的可扩展性评估维度。
+
+### 4. Compliance Requirements Change（合规要求变更）
+新法规、行业标准或内部政策的出台，可能对数据处理方式提出新要求。
+**行动**：重新评估 [[IntegrationGovernance]] 的合规维度，必要时回退或修改自动化。
+
+### 5. Repeated Manual Fixes Appear（反复出现人工修复）
+当运维人员反复以手动方式"修复"同一工作流，说明：
+- 该工作流的 [[ReliabilityBaseline]] 不满足实际需求
+- 存在未被识别的失败模式
+**行动**：将人工修复步骤文档化，评估是否应纳入自动化，或修改降级路径。
+
+## Key Principle
+> **Re-audit does not imply automatic production intervention.**
+> （重审计不意味着自动进行生产干预——审计结果是决策依据，不是行动本身。）
+
+## Related Concepts
+- [[AutomationGovernance]]：重审计触发条件由治理框架定义
+- [[IntegrationGovernance]]：API 变更和合规变更直接影响集成治理状态
+- [[ReliabilityBaseline]]：错误率上升触发可靠性重新评估
+- [[DecisionFramework]]：容量变化触发可扩展性维度重新打分
+
+## Sources
+- [[automation-governance-architect]]（primary）
--- a/wiki/concepts/ReliabilityBaseline.md
+++ b/wiki/concepts/ReliabilityBaseline.md
@@ -0,0 +1,61 @@
+---
+title: "ReliabilityBaseline"
+type: concept
+tags: []
+last_updated: 2026-04-25
+---
+
+# ReliabilityBaseline（可靠性基线）
+
+## Definition
+每个重要工作流必须包含的可靠性最低保障组件，确保自动化系统在各种故障场景下仍能正确响应或优雅降级。
+
+## Required Components
+
+### 1. Explicit Error Branches（显式错误分支）
+每个工作流必须为每个可能失败的步骤定义明确的错误处理路径，不能依赖隐式或默认行为。
+
+### 2. Idempotency / Duplicate Protection（幂等性/重复保护）
+当工作流因重试被多次触发时，必须保证最终结果与单次执行一致（相同输入 → 相同输出，无重复副作用）。
+
+### 3. Safe Retries with Stop Conditions（带停止条件的安全重试）
+- 指数退避（exponential backoff）避免雪崩
+- 最大重试次数限制
+- 永久失败时触发告警并转入人工处理
+
+### 4. Timeout Handling（超时处理）
+每个外部调用必须设置合理的超时值，超时后触发预设的错误处理逻辑。
+
+### 5. Alerting / Notification Behavior（告警/通知行为）
+- 成功/失败状态变更必须通知责任人
+- SLA 即将超时前提前预警
+- 关键指标（如错误率）超过阈值时触发告警
+
+### 6. Manual Fallback Path（人工降级路径）
+当自动恢复失败时，必须有明确的人工操作路径（包含 SOP 文档和联系方式）。
+
+## Logging Baseline（最小日志要求）
+每个工作流执行必须记录：
+1. 工作流名称和版本
+2. 执行时间戳
+3. 源系统
+4. 受影响实体 ID
+5. 成功/失败状态
+6. 错误类型和简短原因说明
+
+## Testing Baseline（验收测试要求）
+生产推荐前必须通过：
+1. Happy Path Test（正常路径测试）
+2. Invalid Input Test（无效输入测试）
+3. External Dependency Failure Test（外部依赖失败测试）
+4. Duplicate Event Test（重复事件测试）
+5. Fallback / Recovery Test（降级/恢复测试）
+6. Scale / Repetition Sanity Check（规模/重复合理性检查）
+
+## Related Concepts
+- [[N8nWorkflowStandard]]：可靠性基线嵌入在工作流的第 7-10 步中
+- [[DecisionFramework]]：通过决策框架评估后才进入可靠性实现阶段
+- [[AutomationGovernance]]：治理体系定义了可靠性基线的强制要求
+
+## Sources
+- [[automation-governance-architect]]（primary）