Files
nexus/wiki/concepts/RTO.md

37 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "RTO"
type: concept
tags: [DevOps, SRE, 灾难恢复]
last_updated: 2026-04-16
---
## 定义
Recovery Time Objective恢复时间目标系统从故障发生到完全恢复可用的最大可容忍时间。
## 计算方式
从系统故障时刻开始计时,到用户可以再次正常使用系统为止。
## 典型场景与目标
| 场景 | RTO 目标 | 原因 |
|------|---------|------|
| 电商支付系统 | <5 分钟 | 停机直接损失收入 |
| 实时聊天 | <30 秒 | 用户期望即时响应 |
| 用户分析仪表盘 | <30 分钟 | 停机影响有限 |
| 内部 CRM | <4 小时 | 可人工 workaround |
| 博客/营销站点 | <2 小时 | 业务影响相对较小 |
## 与 RPO 的关系
- RTO 是速度指标RPO 是数据完整性指标
- 两者必须协同优化:快速恢复但丢大量数据,或缓慢恢复但零数据丢失,均不完整
## 与 Feature Flag 的关系
- Feature Flag 将 RTO 从"部署回滚时间"(小时级)降至"配置变更时间"(秒级)
- Kill Switch 是实现秒级 RTO 的核心机制
## Connections
- [[RPO]] ← 协同指标,共同构成灾难恢复策略
- [[灾难恢复]] ← RTO 是其核心衡量指标
- [[Feature Flag]] ← 实现秒级 RTO 的工程手段
- [[Kill Switch]] ← RTO 保险策略
- [[LaunchDarkly]] ← 企业级 RTO 改善工具