---
title: "CTP Topic 41 NFR's and Error Budgets"
type: source
tags: []
date: 2026-04-14
---

## Source File
- [[Cloud & DevOps/Public-Cloud-Learning-Sessions/10_OpenText-Series/ctp-topic-41-nfrs-and-error-budgets.md]]

## Summary（用中文描述）
- 核心主题：NFR（非功能需求）与 Error Budget（错误预算）在云转型和敏捷开发中的实践——SRE 团队如何驱动产品组与运维协作，满足客户期望，以敏捷方式确保运维要求，并理解错误预算边界以快速可靠地交付功能。
- 问题域：云环境下的可靠性工程、敏捷开发中的运维融合、NFR 的云原生落地
- 方法/机制：NFR Epic 模板将需求集成到 Sprint Backlog；Error Budget 通过 SLO/SLI 量化系统可容忍的不可靠程度；混沌工程主动注入故障验证系统韧性
- 结论/价值：Error Budget 归一化失败弥合开发与运维的鸿沟；NFR 应更具规范性并利用云原生服务；监控能力是衡量 Error Budget 是否达标的关键

## Key Claims（用中文描述）
- NFR 是评判系统运行的准则，Error Budget 是系统可容忍的最大故障时间，两者共同构成云环境下可靠性工程的基石
- AWS 共享责任模型将基础设施管理责任转移给云提供商，但公司必须在云中架构和管理服务以满足 NFR
- Error Budget = 1 - 可用性 SLO（如 99.9% SLO → 0.1% Error Budget），用于衡量系统在影响客户前可承受的不可靠程度
- Error Budget 将失败归一化为开发流程的一部分，弥合了开发与运维之间的文化鸿沟
- 混沌工程通过主动注入故障测试系统韧性，确保 NFR 得到满足

## Key Quotes
> "We want to drive collaboration across our product groups and operations to ensure our obligation to our customers." — Brendan Standing，SRE 协作目标
> "Error budgets normalize failure as part of the development process." — Error Budget 的核心理念
> "SLRs are quantifiable measures of reliability, SLOs define how a service should perform, and SLAs are customer-level agreements." — 三层服务等级体系

## Key Concepts
- [[NFR（非功能需求）]]：评判系统运行的准则，涵盖可用性、性能、安全性、可扩展性等维度；云环境下应更具规范性，充分利用云原生服务
- [[Error Budget（错误预算）]]：系统可容忍的最大故障时间，由 SLO 推导而来；用于归一化失败并驱动开发和运维决策
- [[SLO（服务等级目标）]]：定义服务应如何表现的绩效目标
- [[SLI（服务等级指标）]]：可量化的可靠性度量指标
- [[SLA（服务等级协议）]]：客户级别的正式协议
- [[SLR（服务等级需求）]]：服务等级需求，与 SLO 配套使用
- [[NFR Epic]]：将 NFR 模板集成到 Sprint Backlog 的敏捷实践，确保任何重大变更都考虑非功能需求
- [[Chaos Engineering（混沌工程）]]：主动注入故障以测试系统韧性，确保 NFR 得到满足

## Key Entities
- [[Brendan-Standing]]：Micro Focus SRE 负责人（Head of SRE），本视频主讲人
- [[AWS]]：Amazon Web Services，提供共享责任模型和云原生服务
- [[Micro-Focus]]：企业云转型主体，OpenText 旗下公司

## Connections
- [[ctp-topic-30-managing-change]] ← related_to ← [[ctp-topic-41-nfrs-and-error-budgets]]（NFR/Error Budget 与 SRE 变更管理实践高度关联，SRE 团队是 Error Budget 度量体系的核心执行者）
- [[ctp-topic-72-implementing-an-enterprise-dr-strategy-using-aws-backup]] ← related_to ← [[ctp-topic-41-nfrs-and-error-budgets]]（NFR 中的可用性目标和 DR 策略直接相关，Error Budget 是衡量恢复能力的量化工具）
- [[ctp-topic-67-cloud-native-observability-using-opentelemetry]] ← extends ← [[ctp-topic-41-nfrs-and-error-budgets]]（监控能力是衡量 Error Budget 是否达标的必要前提）
- [[public-cloud-learning-sessions-opentext-evolving-from-dr-to-recovery-assurance-2]] ← related_to ← [[ctp-topic-41-nfrs-and-error-budgets]]（NFR/Error Budget 是 SRE 度量弹性目标的工具，与 SRE 转型的方向一致）
- [[devops-maturity-model-from-traditional-it-to-advanced-devops]] ← extends ← [[ctp-topic-41-nfrs-and-error-budgets]]（DevOps 成熟度模型将 Error Budget 作为衡量系统可靠性和运维能力的核心指标）

## Contradictions
- 与 [[ctp-topic-30-managing-change]] 在 SRE 职责范围上存在视角差异：
  - 冲突点：Topic 30 强调 SRE 的变更管理职责（Standard/Normal/Emergency Change），Topic 41 强调 SRE 的可靠性工程职责（NFR/Error Budget）
  - 当前观点：两者是 SRE 职责的一体两面——变更管理是 SRE 的运营职责，NFR/Error Budget 是 SRE 的工程职责，共同构成完整的 SRE 能力体系
  - 对方观点：Topic 30 侧重"如何处理变更"，Topic 41 侧重"如何定义可靠性目标"，两者互补而非矛盾