Files
nexus/wiki/concepts/ReliabilityBaseline.md

62 lines
2.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "ReliabilityBaseline"
type: concept
tags: []
last_updated: 2026-04-25
---
# ReliabilityBaseline可靠性基线
## Definition
每个重要工作流必须包含的可靠性最低保障组件,确保自动化系统在各种故障场景下仍能正确响应或优雅降级。
## Required Components
### 1. Explicit Error Branches显式错误分支
每个工作流必须为每个可能失败的步骤定义明确的错误处理路径,不能依赖隐式或默认行为。
### 2. Idempotency / Duplicate Protection幂等性/重复保护)
当工作流因重试被多次触发时,必须保证最终结果与单次执行一致(相同输入 → 相同输出,无重复副作用)。
### 3. Safe Retries with Stop Conditions带停止条件的安全重试
- 指数退避exponential backoff避免雪崩
- 最大重试次数限制
- 永久失败时触发告警并转入人工处理
### 4. Timeout Handling超时处理
每个外部调用必须设置合理的超时值,超时后触发预设的错误处理逻辑。
### 5. Alerting / Notification Behavior告警/通知行为)
- 成功/失败状态变更必须通知责任人
- SLA 即将超时前提前预警
- 关键指标(如错误率)超过阈值时触发告警
### 6. Manual Fallback Path人工降级路径
当自动恢复失败时,必须有明确的人工操作路径(包含 SOP 文档和联系方式)。
## Logging Baseline最小日志要求
每个工作流执行必须记录:
1. 工作流名称和版本
2. 执行时间戳
3. 源系统
4. 受影响实体 ID
5. 成功/失败状态
6. 错误类型和简短原因说明
## Testing Baseline验收测试要求
生产推荐前必须通过:
1. Happy Path Test正常路径测试
2. Invalid Input Test无效输入测试
3. External Dependency Failure Test外部依赖失败测试
4. Duplicate Event Test重复事件测试
5. Fallback / Recovery Test降级/恢复测试)
6. Scale / Repetition Sanity Check规模/重复合理性检查)
## Related Concepts
- [[N8nWorkflowStandard]]:可靠性基线嵌入在工作流的第 7-10 步中
- [[DecisionFramework]]:通过决策框架评估后才进入可靠性实现阶段
- [[AutomationGovernance]]:治理体系定义了可靠性基线的强制要求
## Sources
- [[automation-governance-architect]]primary