Files
nexus/wiki/concepts/Resilience.md
2026-05-03 05:42:12 +08:00

1.6 KiB
Raw Blame History

title, type, tags, last_updated
title type tags last_updated
Resilience concept
sre
reliability
engineering
fault-tolerance
2026-04-20

Resilience

韧性Resilience是系统在面对故障、压力和变化时保持服务可用性的能力。SRE 的核心目标之一就是建立和维持系统韧性。

Definition

韧性不仅是"不故障",而是:

  • 故障吸收:系统能够吸收和缓解故障的影响
  • 快速恢复:故障发生后能快速恢复正常服务
  • 适应性学习:从故障中学习,持续改进

The 5 Things Resilience Cannot Be Automated

Uptime Labs 总结了 5 种无法被自动化的韧性要素:

1. Learning学习

从故障和Near-miss中提取经验教训形成组织知识。

2. Decision-Making决策

在高压情况下做出正确判断,选择最优响应策略。

3. Prioritization优先级排序

在多个问题同时发生时,决定处理顺序。

4. Communication沟通

协调团队、通知利益相关者、管理期望。

5. Adaptation适应

根据新情况调整策略,不拘泥于预设剧本。

SRE Practices for Resilience

Relationship to Other Concepts

  • Reliability 是韧性的组成部分
  • Fault Tolerance 是实现韧性的手段之一
  • Incident Response 是韧性响应的执行过程

Source