Files
nexus/wiki/sources/RTO-vs-RPO-Key-Differences-for-Modern-Disaster-Recovery.md

3.1 KiB
Raw Blame History

title, type, tags, date
title type tags date
RTO vs RPO: Key Differences for Modern Disaster Recovery source
DevOps
灾难恢复
SRE
2025-07-26

Source File

Summary

  • 核心主题RTO恢复时间目标与 RPO恢复点目标在现代持续交付中的差异与应用
  • 问题域:传统灾难恢复规划与现代高频部署场景之间的错配
  • 方法/机制基于业务影响的三级分层体系、Feature Flag 即时回滚、渐进式发布
  • 结论/价值Feature Flag 将 RTO 从小时级降至秒级,是现代软件交付的 RPO/RTO 保险策略

Key Claims

  • RTO 衡量系统从故障到恢复的速度RPO 衡量可接受的数据丢失量(从故障时刻往前计算)
  • 传统灾难恢复聚焦"稀有大事"(火灾/硬件故障),现代 DevOps 最大风险是代码变更引入的缺陷
  • Feature Flag 将部署deploy与发布release解耦实现秒级 RTO
  • RTO 和 RPO 必须同时优化:快速恢复但大量数据丢失,或缓慢恢复但零数据丢失,都是不完整的策略
  • 三级分层系统Tier 1 关键系统RTO<5分钟RPO<1分钟、Tier 2 重要系统(<1小时<15分钟、Tier 3 可选系统(<4小时<1小时
  • 渐进式发布1%→5%→25%→100%)将影响范围控制在局部,将 RTO 从小时降至秒级
  • 成本收益原则:不要为防止 $10K/小时停机损失而花 $100K/年基础设施
  • HP 将回滚时间从小时级降至分钟级Dior 将 15 分钟回滚降至即时开关

Key Concepts

  • RTORecovery Time Objective系统可容忍的最大停机时间
  • RPORecovery Point Objective可接受的最大数据丢失量从故障时刻往前回溯
  • Feature Flag:将代码部署与用户可见性解耦,支持即时回滚和渐进式发布
  • Kill SwitchFeature Flag 的紧急关闭能力RTO 保险策略
  • 渐进式发布分阶段1%→5%→25%→100%)控制影响范围
  • Blameless Post-Mortem:无责复盘,从失败中提取改进而不追责
  • 连续数据保护CDP持续备份而非定时快照实现更小 RPO

Key Entities

  • LaunchDarklyFeature Flag 管理平台86% 客户可在一天内从事故恢复
  • HP:通过 LaunchDarkly 将回滚时间从小时级降至分钟级
  • Christian Dior:通过 LaunchDarkly 将 15 分钟回滚降至即时开关

Connections

Contradictions

  • 与传统灾难恢复观点对比:传统认为"回滚 = 重新部署代码",本文认为"回滚 = 改变 Feature Flag 配置"
    • 当前观点Feature Flag 实现秒级 RTO无需重新部署
    • 对方观点:代码变更仍需要完整回滚机制作为最后手段