--- title: "CTP Topic 41 NFR's and Error Budgets" type: source tags: [] date: 2026-04-14 --- ## Source File - [[Cloud & DevOps/Public-Cloud-Learning-Sessions/10_OpenText-Series/ctp-topic-41-nfrs-and-error-budgets.md]] ## Summary(用中文描述) - 核心主题:NFR(非功能需求)与 Error Budget(错误预算)在云转型和敏捷开发中的实践——SRE 团队如何驱动产品组与运维协作,满足客户期望,以敏捷方式确保运维要求,并理解错误预算边界以快速可靠地交付功能。 - 问题域:云环境下的可靠性工程、敏捷开发中的运维融合、NFR 的云原生落地 - 方法/机制:NFR Epic 模板将需求集成到 Sprint Backlog;Error Budget 通过 SLO/SLI 量化系统可容忍的不可靠程度;混沌工程主动注入故障验证系统韧性 - 结论/价值:Error Budget 归一化失败弥合开发与运维的鸿沟;NFR 应更具规范性并利用云原生服务;监控能力是衡量 Error Budget 是否达标的关键 ## Key Claims(用中文描述) - NFR 是评判系统运行的准则,Error Budget 是系统可容忍的最大故障时间,两者共同构成云环境下可靠性工程的基石 - AWS 共享责任模型将基础设施管理责任转移给云提供商,但公司必须在云中架构和管理服务以满足 NFR - Error Budget = 1 - 可用性 SLO(如 99.9% SLO → 0.1% Error Budget),用于衡量系统在影响客户前可承受的不可靠程度 - Error Budget 将失败归一化为开发流程的一部分,弥合了开发与运维之间的文化鸿沟 - 混沌工程通过主动注入故障测试系统韧性,确保 NFR 得到满足 ## Key Quotes > "We want to drive collaboration across our product groups and operations to ensure our obligation to our customers." — Brendan Standing,SRE 协作目标 > "Error budgets normalize failure as part of the development process." — Error Budget 的核心理念 > "SLRs are quantifiable measures of reliability, SLOs define how a service should perform, and SLAs are customer-level agreements." — 三层服务等级体系 ## Key Concepts - [[NFR(非功能需求)]]:评判系统运行的准则,涵盖可用性、性能、安全性、可扩展性等维度;云环境下应更具规范性,充分利用云原生服务 - [[Error Budget(错误预算)]]:系统可容忍的最大故障时间,由 SLO 推导而来;用于归一化失败并驱动开发和运维决策 - [[SLO(服务等级目标)]]:定义服务应如何表现的绩效目标 - [[SLI(服务等级指标)]]:可量化的可靠性度量指标 - [[SLA(服务等级协议)]]:客户级别的正式协议 - [[SLR(服务等级需求)]]:服务等级需求,与 SLO 配套使用 - [[NFR Epic]]:将 NFR 模板集成到 Sprint Backlog 的敏捷实践,确保任何重大变更都考虑非功能需求 - [[Chaos Engineering(混沌工程)]]:主动注入故障以测试系统韧性,确保 NFR 得到满足 ## Key Entities - [[Brendan-Standing]]:Micro Focus SRE 负责人(Head of SRE),本视频主讲人 - [[AWS]]:Amazon Web Services,提供共享责任模型和云原生服务 - [[Micro-Focus]]:企业云转型主体,OpenText 旗下公司 ## Connections - [[ctp-topic-30-managing-change]] ← related_to ← [[ctp-topic-41-nfrs-and-error-budgets]](NFR/Error Budget 与 SRE 变更管理实践高度关联,SRE 团队是 Error Budget 度量体系的核心执行者) - [[ctp-topic-72-implementing-an-enterprise-dr-strategy-using-aws-backup]] ← related_to ← [[ctp-topic-41-nfrs-and-error-budgets]](NFR 中的可用性目标和 DR 策略直接相关,Error Budget 是衡量恢复能力的量化工具) - [[ctp-topic-67-cloud-native-observability-using-opentelemetry]] ← extends ← [[ctp-topic-41-nfrs-and-error-budgets]](监控能力是衡量 Error Budget 是否达标的必要前提) - [[public-cloud-learning-sessions-opentext-evolving-from-dr-to-recovery-assurance-2]] ← related_to ← [[ctp-topic-41-nfrs-and-error-budgets]](NFR/Error Budget 是 SRE 度量弹性目标的工具,与 SRE 转型的方向一致) - [[devops-maturity-model-from-traditional-it-to-advanced-devops]] ← extends ← [[ctp-topic-41-nfrs-and-error-budgets]](DevOps 成熟度模型将 Error Budget 作为衡量系统可靠性和运维能力的核心指标) ## Contradictions - 与 [[ctp-topic-30-managing-change]] 在 SRE 职责范围上存在视角差异: - 冲突点:Topic 30 强调 SRE 的变更管理职责(Standard/Normal/Emergency Change),Topic 41 强调 SRE 的可靠性工程职责(NFR/Error Budget) - 当前观点:两者是 SRE 职责的一体两面——变更管理是 SRE 的运营职责,NFR/Error Budget 是 SRE 的工程职责,共同构成完整的 SRE 能力体系 - 对方观点:Topic 30 侧重"如何处理变更",Topic 41 侧重"如何定义可靠性目标",两者互补而非矛盾