wiki-ingest batch 4: DevOps Culture + RTO/RPO + 三种云模型 (2026-04-16 03:02)

2026-04-16 03:07:11 +08:00
parent dff9f3ecb1
commit a0be34e768
14 changed files with 533 additions and 49 deletions
--- a/wiki/concepts/RTO.md
+++ b/wiki/concepts/RTO.md
@@ -0,0 +1,36 @@
+---
+title: "RTO"
+type: concept
+tags: [DevOps, SRE, 灾难恢复]
+last_updated: 2026-04-16
+---
+
+## 定义
+Recovery Time Objective（恢复时间目标）：系统从故障发生到完全恢复可用的最大可容忍时间。
+
+## 计算方式
+从系统故障时刻开始计时，到用户可以再次正常使用系统为止。
+
+## 典型场景与目标
+| 场景 | RTO 目标 | 原因 |
+|------|---------|------|
+| 电商支付系统 | <5 分钟 | 停机直接损失收入 |
+| 实时聊天 | <30 秒 | 用户期望即时响应 |
+| 用户分析仪表盘 | <30 分钟 | 停机影响有限 |
+| 内部 CRM | <4 小时 | 可人工 workaround |
+| 博客/营销站点 | <2 小时 | 业务影响相对较小 |
+
+## 与 RPO 的关系
+- RTO 是速度指标，RPO 是数据完整性指标
+- 两者必须协同优化：快速恢复但丢大量数据，或缓慢恢复但零数据丢失，均不完整
+
+## 与 Feature Flag 的关系
+- Feature Flag 将 RTO 从"部署回滚时间"（小时级）降至"配置变更时间"（秒级）
+- Kill Switch 是实现秒级 RTO 的核心机制
+
+## Connections
+- [[RPO]] ← 协同指标，共同构成灾难恢复策略
+- [[灾难恢复]] ← RTO 是其核心衡量指标
+- [[Feature Flag]] ← 实现秒级 RTO 的工程手段
+- [[Kill Switch]] ← RTO 保险策略
+- [[LaunchDarkly]] ← 企业级 RTO 改善工具