Sync: add automation governance notes

This commit is contained in:
2026-04-25 13:11:48 +08:00
parent e812681628
commit 9fccf27053
14 changed files with 840 additions and 47 deletions

View File

@@ -0,0 +1,61 @@
---
title: "ReliabilityBaseline"
type: concept
tags: []
last_updated: 2026-04-25
---
# ReliabilityBaseline可靠性基线
## Definition
每个重要工作流必须包含的可靠性最低保障组件,确保自动化系统在各种故障场景下仍能正确响应或优雅降级。
## Required Components
### 1. Explicit Error Branches显式错误分支
每个工作流必须为每个可能失败的步骤定义明确的错误处理路径,不能依赖隐式或默认行为。
### 2. Idempotency / Duplicate Protection幂等性/重复保护)
当工作流因重试被多次触发时,必须保证最终结果与单次执行一致(相同输入 → 相同输出,无重复副作用)。
### 3. Safe Retries with Stop Conditions带停止条件的安全重试
- 指数退避exponential backoff避免雪崩
- 最大重试次数限制
- 永久失败时触发告警并转入人工处理
### 4. Timeout Handling超时处理
每个外部调用必须设置合理的超时值,超时后触发预设的错误处理逻辑。
### 5. Alerting / Notification Behavior告警/通知行为)
- 成功/失败状态变更必须通知责任人
- SLA 即将超时前提前预警
- 关键指标(如错误率)超过阈值时触发告警
### 6. Manual Fallback Path人工降级路径
当自动恢复失败时,必须有明确的人工操作路径(包含 SOP 文档和联系方式)。
## Logging Baseline最小日志要求
每个工作流执行必须记录:
1. 工作流名称和版本
2. 执行时间戳
3. 源系统
4. 受影响实体 ID
5. 成功/失败状态
6. 错误类型和简短原因说明
## Testing Baseline验收测试要求
生产推荐前必须通过:
1. Happy Path Test正常路径测试
2. Invalid Input Test无效输入测试
3. External Dependency Failure Test外部依赖失败测试
4. Duplicate Event Test重复事件测试
5. Fallback / Recovery Test降级/恢复测试)
6. Scale / Repetition Sanity Check规模/重复合理性检查)
## Related Concepts
- [[N8nWorkflowStandard]]:可靠性基线嵌入在工作流的第 7-10 步中
- [[DecisionFramework]]:通过决策框架评估后才进入可靠性实现阶段
- [[AutomationGovernance]]:治理体系定义了可靠性基线的强制要求
## Sources
- [[automation-governance-architect]]primary