62 lines
2.4 KiB
Markdown
62 lines
2.4 KiB
Markdown
---
|
||
title: "ReliabilityBaseline"
|
||
type: concept
|
||
tags: []
|
||
last_updated: 2026-04-25
|
||
---
|
||
|
||
# ReliabilityBaseline(可靠性基线)
|
||
|
||
## Definition
|
||
每个重要工作流必须包含的可靠性最低保障组件,确保自动化系统在各种故障场景下仍能正确响应或优雅降级。
|
||
|
||
## Required Components
|
||
|
||
### 1. Explicit Error Branches(显式错误分支)
|
||
每个工作流必须为每个可能失败的步骤定义明确的错误处理路径,不能依赖隐式或默认行为。
|
||
|
||
### 2. Idempotency / Duplicate Protection(幂等性/重复保护)
|
||
当工作流因重试被多次触发时,必须保证最终结果与单次执行一致(相同输入 → 相同输出,无重复副作用)。
|
||
|
||
### 3. Safe Retries with Stop Conditions(带停止条件的安全重试)
|
||
- 指数退避(exponential backoff)避免雪崩
|
||
- 最大重试次数限制
|
||
- 永久失败时触发告警并转入人工处理
|
||
|
||
### 4. Timeout Handling(超时处理)
|
||
每个外部调用必须设置合理的超时值,超时后触发预设的错误处理逻辑。
|
||
|
||
### 5. Alerting / Notification Behavior(告警/通知行为)
|
||
- 成功/失败状态变更必须通知责任人
|
||
- SLA 即将超时前提前预警
|
||
- 关键指标(如错误率)超过阈值时触发告警
|
||
|
||
### 6. Manual Fallback Path(人工降级路径)
|
||
当自动恢复失败时,必须有明确的人工操作路径(包含 SOP 文档和联系方式)。
|
||
|
||
## Logging Baseline(最小日志要求)
|
||
每个工作流执行必须记录:
|
||
1. 工作流名称和版本
|
||
2. 执行时间戳
|
||
3. 源系统
|
||
4. 受影响实体 ID
|
||
5. 成功/失败状态
|
||
6. 错误类型和简短原因说明
|
||
|
||
## Testing Baseline(验收测试要求)
|
||
生产推荐前必须通过:
|
||
1. Happy Path Test(正常路径测试)
|
||
2. Invalid Input Test(无效输入测试)
|
||
3. External Dependency Failure Test(外部依赖失败测试)
|
||
4. Duplicate Event Test(重复事件测试)
|
||
5. Fallback / Recovery Test(降级/恢复测试)
|
||
6. Scale / Repetition Sanity Check(规模/重复合理性检查)
|
||
|
||
## Related Concepts
|
||
- [[N8nWorkflowStandard]]:可靠性基线嵌入在工作流的第 7-10 步中
|
||
- [[DecisionFramework]]:通过决策框架评估后才进入可靠性实现阶段
|
||
- [[AutomationGovernance]]:治理体系定义了可靠性基线的强制要求
|
||
|
||
## Sources
|
||
- [[automation-governance-architect]](primary)
|