2.3 KiB
2.3 KiB
title, type, tags, last_updated
| title | type | tags | last_updated |
|---|---|---|---|
| ReliabilityBaseline | concept | 2026-04-25 |
ReliabilityBaseline(可靠性基线)
Definition
每个重要工作流必须包含的可靠性最低保障组件,确保自动化系统在各种故障场景下仍能正确响应或优雅降级。
Required Components
1. Explicit Error Branches(显式错误分支)
每个工作流必须为每个可能失败的步骤定义明确的错误处理路径,不能依赖隐式或默认行为。
2. Idempotency / Duplicate Protection(幂等性/重复保护)
当工作流因重试被多次触发时,必须保证最终结果与单次执行一致(相同输入 → 相同输出,无重复副作用)。
3. Safe Retries with Stop Conditions(带停止条件的安全重试)
- 指数退避(exponential backoff)避免雪崩
- 最大重试次数限制
- 永久失败时触发告警并转入人工处理
4. Timeout Handling(超时处理)
每个外部调用必须设置合理的超时值,超时后触发预设的错误处理逻辑。
5. Alerting / Notification Behavior(告警/通知行为)
- 成功/失败状态变更必须通知责任人
- SLA 即将超时前提前预警
- 关键指标(如错误率)超过阈值时触发告警
6. Manual Fallback Path(人工降级路径)
当自动恢复失败时,必须有明确的人工操作路径(包含 SOP 文档和联系方式)。
Logging Baseline(最小日志要求)
每个工作流执行必须记录:
- 工作流名称和版本
- 执行时间戳
- 源系统
- 受影响实体 ID
- 成功/失败状态
- 错误类型和简短原因说明
Testing Baseline(验收测试要求)
生产推荐前必须通过:
- Happy Path Test(正常路径测试)
- Invalid Input Test(无效输入测试)
- External Dependency Failure Test(外部依赖失败测试)
- Duplicate Event Test(重复事件测试)
- Fallback / Recovery Test(降级/恢复测试)
- Scale / Repetition Sanity Check(规模/重复合理性检查)
Related Concepts
- N8nWorkflowStandard:可靠性基线嵌入在工作流的第 7-10 步中
- DecisionFramework:通过决策框架评估后才进入可靠性实现阶段
- AutomationGovernance:治理体系定义了可靠性基线的强制要求
Sources
- automation-governance-architect(primary)