37 lines
1.3 KiB
Markdown
37 lines
1.3 KiB
Markdown
---
|
||
title: "RTO"
|
||
type: concept
|
||
tags: [DevOps, SRE, 灾难恢复]
|
||
last_updated: 2026-04-16
|
||
---
|
||
|
||
## 定义
|
||
Recovery Time Objective(恢复时间目标):系统从故障发生到完全恢复可用的最大可容忍时间。
|
||
|
||
## 计算方式
|
||
从系统故障时刻开始计时,到用户可以再次正常使用系统为止。
|
||
|
||
## 典型场景与目标
|
||
| 场景 | RTO 目标 | 原因 |
|
||
|------|---------|------|
|
||
| 电商支付系统 | <5 分钟 | 停机直接损失收入 |
|
||
| 实时聊天 | <30 秒 | 用户期望即时响应 |
|
||
| 用户分析仪表盘 | <30 分钟 | 停机影响有限 |
|
||
| 内部 CRM | <4 小时 | 可人工 workaround |
|
||
| 博客/营销站点 | <2 小时 | 业务影响相对较小 |
|
||
|
||
## 与 RPO 的关系
|
||
- RTO 是速度指标,RPO 是数据完整性指标
|
||
- 两者必须协同优化:快速恢复但丢大量数据,或缓慢恢复但零数据丢失,均不完整
|
||
|
||
## 与 Feature Flag 的关系
|
||
- Feature Flag 将 RTO 从"部署回滚时间"(小时级)降至"配置变更时间"(秒级)
|
||
- Kill Switch 是实现秒级 RTO 的核心机制
|
||
|
||
## Connections
|
||
- [[RPO]] ← 协同指标,共同构成灾难恢复策略
|
||
- [[灾难恢复]] ← RTO 是其核心衡量指标
|
||
- [[Feature Flag]] ← 实现秒级 RTO 的工程手段
|
||
- [[Kill Switch]] ← RTO 保险策略
|
||
- [[LaunchDarkly]] ← 企业级 RTO 改善工具
|