1.1 KiB
1.1 KiB
title, type, tags, last_updated
| title | type | tags | last_updated | |||
|---|---|---|---|---|---|---|
| Disaster Recovery | concept |
|
2026-04-21 |
Definition
Disaster Recovery(灾难恢复)是一套在灾难性事件后恢复 IT 系统和数据的策略与流程,确保业务连续性。
Core Metrics
- RTO(Recovery Time Objective):系统允许的最大停机时间
- RPO(Recovery Point Objective):可接受的最大数据丢失量
Key Components
- 备份策略:定期创建加密备份,存储于 S3
- 恢复流程:经过测试的恢复程序文档
- 自动化恢复:通过脚本实现自动故障切换
Implementation
The Agency 项目中的 Support Infrastructure Maintainer 实现:
- 自动化备份脚本(GPG 加密 + S3 上传)
- 30 天本地保留 + S3 生命周期管理
- Backup verification 和 Slack 通知
Related Concepts
- Feature Flag(特性开关):控制代码路径而不需要重新部署,实现秒级回滚
- ITSM(IT 服务管理):从工单系统演进为战略推动者,实现运营卓越和风险缓解