Files
nexus/wiki/sources/ctp-topic-41-nfrs-and-error-budgets.md

56 lines
4.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "CTP Topic 41 NFR's and Error Budgets"
type: source
tags: []
date: 2026-04-14
---
## Source File
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/10_OpenText-Series/ctp-topic-41-nfrs-and-error-budgets.md]]
## Summary用中文描述
- 核心主题NFR非功能需求与 Error Budget错误预算在云转型和敏捷开发中的实践——SRE 团队如何驱动产品组与运维协作,满足客户期望,以敏捷方式确保运维要求,并理解错误预算边界以快速可靠地交付功能。
- 问题域云环境下的可靠性工程、敏捷开发中的运维融合、NFR 的云原生落地
- 方法/机制NFR Epic 模板将需求集成到 Sprint BacklogError Budget 通过 SLO/SLI 量化系统可容忍的不可靠程度;混沌工程主动注入故障验证系统韧性
- 结论/价值Error Budget 归一化失败弥合开发与运维的鸿沟NFR 应更具规范性并利用云原生服务;监控能力是衡量 Error Budget 是否达标的关键
## Key Claims用中文描述
- NFR 是评判系统运行的准则Error Budget 是系统可容忍的最大故障时间,两者共同构成云环境下可靠性工程的基石
- AWS 共享责任模型将基础设施管理责任转移给云提供商,但公司必须在云中架构和管理服务以满足 NFR
- Error Budget = 1 - 可用性 SLO如 99.9% SLO → 0.1% Error Budget用于衡量系统在影响客户前可承受的不可靠程度
- Error Budget 将失败归一化为开发流程的一部分,弥合了开发与运维之间的文化鸿沟
- 混沌工程通过主动注入故障测试系统韧性,确保 NFR 得到满足
## Key Quotes
> "We want to drive collaboration across our product groups and operations to ensure our obligation to our customers." — Brendan StandingSRE 协作目标
> "Error budgets normalize failure as part of the development process." — Error Budget 的核心理念
> "SLRs are quantifiable measures of reliability, SLOs define how a service should perform, and SLAs are customer-level agreements." — 三层服务等级体系
## Key Concepts
- [[NFR非功能需求]]:评判系统运行的准则,涵盖可用性、性能、安全性、可扩展性等维度;云环境下应更具规范性,充分利用云原生服务
- [[Error Budget错误预算]]:系统可容忍的最大故障时间,由 SLO 推导而来;用于归一化失败并驱动开发和运维决策
- [[SLO服务等级目标]]:定义服务应如何表现的绩效目标
- [[SLI服务等级指标]]:可量化的可靠性度量指标
- [[SLA服务等级协议]]:客户级别的正式协议
- [[SLR服务等级需求]]:服务等级需求,与 SLO 配套使用
- [[NFR Epic]]:将 NFR 模板集成到 Sprint Backlog 的敏捷实践,确保任何重大变更都考虑非功能需求
- [[Chaos Engineering混沌工程]]:主动注入故障以测试系统韧性,确保 NFR 得到满足
## Key Entities
- [[Brendan-Standing]]Micro Focus SRE 负责人Head of SRE本视频主讲人
- [[AWS]]Amazon Web Services提供共享责任模型和云原生服务
- [[Micro-Focus]]企业云转型主体OpenText 旗下公司
## Connections
- [[ctp-topic-30-managing-change]] ← related_to ← [[ctp-topic-41-nfrs-and-error-budgets]]NFR/Error Budget 与 SRE 变更管理实践高度关联SRE 团队是 Error Budget 度量体系的核心执行者)
- [[ctp-topic-72-implementing-an-enterprise-dr-strategy-using-aws-backup]] ← related_to ← [[ctp-topic-41-nfrs-and-error-budgets]]NFR 中的可用性目标和 DR 策略直接相关Error Budget 是衡量恢复能力的量化工具)
- [[ctp-topic-67-cloud-native-observability-using-opentelemetry]] ← extends ← [[ctp-topic-41-nfrs-and-error-budgets]](监控能力是衡量 Error Budget 是否达标的必要前提)
- [[public-cloud-learning-sessions-opentext-evolving-from-dr-to-recovery-assurance-2]] ← related_to ← [[ctp-topic-41-nfrs-and-error-budgets]]NFR/Error Budget 是 SRE 度量弹性目标的工具,与 SRE 转型的方向一致)
- [[devops-maturity-model-from-traditional-it-to-advanced-devops]] ← extends ← [[ctp-topic-41-nfrs-and-error-budgets]]DevOps 成熟度模型将 Error Budget 作为衡量系统可靠性和运维能力的核心指标)
## Contradictions
- 与 [[ctp-topic-30-managing-change]] 在 SRE 职责范围上存在视角差异:
- 冲突点Topic 30 强调 SRE 的变更管理职责Standard/Normal/Emergency ChangeTopic 41 强调 SRE 的可靠性工程职责NFR/Error Budget
- 当前观点:两者是 SRE 职责的一体两面——变更管理是 SRE 的运营职责NFR/Error Budget 是 SRE 的工程职责,共同构成完整的 SRE 能力体系
- 对方观点Topic 30 侧重"如何处理变更"Topic 41 侧重"如何定义可靠性目标",两者互补而非矛盾