1.6 KiB
1.6 KiB
title, type, tags, last_updated
| title | type | tags | last_updated | ||||
|---|---|---|---|---|---|---|---|
| Resilience | concept |
|
2026-04-20 |
Resilience
韧性(Resilience)是系统在面对故障、压力和变化时保持服务可用性的能力。SRE 的核心目标之一就是建立和维持系统韧性。
Definition
韧性不仅是"不故障",而是:
- 故障吸收:系统能够吸收和缓解故障的影响
- 快速恢复:故障发生后能快速恢复正常服务
- 适应性学习:从故障中学习,持续改进
The 5 Things Resilience Cannot Be Automated
Uptime Labs 总结了 5 种无法被自动化的韧性要素:
1. Learning(学习)
从故障和Near-miss中提取经验教训,形成组织知识。
2. Decision-Making(决策)
在高压情况下做出正确判断,选择最优响应策略。
3. Prioritization(优先级排序)
在多个问题同时发生时,决定处理顺序。
4. Communication(沟通)
协调团队、通知利益相关者、管理期望。
5. Adaptation(适应)
根据新情况调整策略,不拘泥于预设剧本。
SRE Practices for Resilience
- BlamelessPostMortem:从故障中学习
- Self-Healing:自动化恢复机制
- Observability:理解系统状态
- Organizational-Second-Hit-Syndrome:理解组织层面的韧性
- Chaos-Engineering:主动发现弱点
Relationship to Other Concepts
- Reliability 是韧性的组成部分
- Fault Tolerance 是实现韧性的手段之一
- Incident Response 是韧性响应的执行过程
Source
- SRE Weekly Issue #513 — sre-weekly-issue-513