--- title: "Resilience" type: concept tags: [sre, reliability, engineering, fault-tolerance] last_updated: 2026-04-20 --- # Resilience 韧性(Resilience)是系统在面对故障、压力和变化时保持服务可用性的能力。SRE 的核心目标之一就是建立和维持系统韧性。 ## Definition 韧性不仅是"不故障",而是: - **故障吸收**:系统能够吸收和缓解故障的影响 - **快速恢复**:故障发生后能快速恢复正常服务 - **适应性学习**:从故障中学习,持续改进 ## The 5 Things Resilience Cannot Be Automated Uptime Labs 总结了 5 种无法被自动化的韧性要素: ### 1. Learning(学习) 从故障和Near-miss中提取经验教训,形成组织知识。 ### 2. Decision-Making(决策) 在高压情况下做出正确判断,选择最优响应策略。 ### 3. Prioritization(优先级排序) 在多个问题同时发生时,决定处理顺序。 ### 4. Communication(沟通) 协调团队、通知利益相关者、管理期望。 ### 5. Adaptation(适应) 根据新情况调整策略,不拘泥于预设剧本。 ## SRE Practices for Resilience - [[BlamelessPostMortem]]:从故障中学习 - [[Self-Healing]]:自动化恢复机制 - [[Observability]]:理解系统状态 - [[Organizational-Second-Hit-Syndrome]]:理解组织层面的韧性 - [[Chaos-Engineering]]:主动发现弱点 ## Relationship to Other Concepts - **Reliability** 是韧性的组成部分 - **Fault Tolerance** 是实现韧性的手段之一 - **Incident Response** 是韧性响应的执行过程 ## Source - SRE Weekly Issue #513 — [[sre-weekly-issue-513]]