Files
nexus/wiki/concepts/ReliabilityBaseline.md

2.3 KiB
Raw Blame History

title, type, tags, last_updated
title type tags last_updated
ReliabilityBaseline concept
2026-04-25

ReliabilityBaseline可靠性基线

Definition

每个重要工作流必须包含的可靠性最低保障组件,确保自动化系统在各种故障场景下仍能正确响应或优雅降级。

Required Components

1. Explicit Error Branches显式错误分支

每个工作流必须为每个可能失败的步骤定义明确的错误处理路径,不能依赖隐式或默认行为。

2. Idempotency / Duplicate Protection幂等性/重复保护)

当工作流因重试被多次触发时,必须保证最终结果与单次执行一致(相同输入 → 相同输出,无重复副作用)。

3. Safe Retries with Stop Conditions带停止条件的安全重试

  • 指数退避exponential backoff避免雪崩
  • 最大重试次数限制
  • 永久失败时触发告警并转入人工处理

4. Timeout Handling超时处理

每个外部调用必须设置合理的超时值,超时后触发预设的错误处理逻辑。

5. Alerting / Notification Behavior告警/通知行为)

  • 成功/失败状态变更必须通知责任人
  • SLA 即将超时前提前预警
  • 关键指标(如错误率)超过阈值时触发告警

6. Manual Fallback Path人工降级路径

当自动恢复失败时,必须有明确的人工操作路径(包含 SOP 文档和联系方式)。

Logging Baseline最小日志要求

每个工作流执行必须记录:

  1. 工作流名称和版本
  2. 执行时间戳
  3. 源系统
  4. 受影响实体 ID
  5. 成功/失败状态
  6. 错误类型和简短原因说明

Testing Baseline验收测试要求

生产推荐前必须通过:

  1. Happy Path Test正常路径测试
  2. Invalid Input Test无效输入测试
  3. External Dependency Failure Test外部依赖失败测试
  4. Duplicate Event Test重复事件测试
  5. Fallback / Recovery Test降级/恢复测试)
  6. Scale / Repetition Sanity Check规模/重复合理性检查)

Sources