Files
nexus/wiki/concepts/Error-Budget.md
2026-04-19 06:32:15 +08:00

1.6 KiB
Raw Blame History

id, title, type, tags, last_updated
id title type tags last_updated
error-budget Error Budget错误预算 concept
sre
reliability
availability
2026-04-19

Definition

Error Budget错误预算是系统在不影响客户的前提下可以不可靠的最大时间量。它弥合了开发与运维之间的鸿沟将失败正常化为开发过程的一部分。

Calculation

Error Budget = 1 - 可用性 SLO

例如:

  • 99.9% SLO → 0.1% Error Budget
  • 99.99% SLO → 0.01% Error Budget

完美可用性是 100%Error Budget 落在 SLO 和 100% 之间。

Usage

  • 在预算内:开发者可以承担更多风险,快速交付功能
  • 超出预算:开发者必须做出更保守的选择,优先保证稳定性

Measurement

Importance

  1. 监控能力:快速显示 Error Budget 是否未充分利用或已超出
  2. 小幅度变更:小迭代变更和充分测试的部署是管理 Error Budget 的关键
  3. 混沌工程:通过故意引发故障测试系统韧性,确保满足 NFR

Relationship

References