Files
nexus/wiki/concepts/RTO.md

1.3 KiB
Raw Blame History

title, type, tags, last_updated
title type tags last_updated
RTO concept
DevOps
SRE
灾难恢复
2026-04-16

定义

Recovery Time Objective恢复时间目标系统从故障发生到完全恢复可用的最大可容忍时间。

计算方式

从系统故障时刻开始计时,到用户可以再次正常使用系统为止。

典型场景与目标

场景 RTO 目标 原因
电商支付系统 <5 分钟 停机直接损失收入
实时聊天 <30 秒 用户期望即时响应
用户分析仪表盘 <30 分钟 停机影响有限
内部 CRM <4 小时 可人工 workaround
博客/营销站点 <2 小时 业务影响相对较小

与 RPO 的关系

  • RTO 是速度指标RPO 是数据完整性指标
  • 两者必须协同优化:快速恢复但丢大量数据,或缓慢恢复但零数据丢失,均不完整

与 Feature Flag 的关系

  • Feature Flag 将 RTO 从"部署回滚时间"(小时级)降至"配置变更时间"(秒级)
  • Kill Switch 是实现秒级 RTO 的核心机制

Connections