Files
nexus/wiki/concepts/Resilience.md
2026-05-03 05:42:12 +08:00

50 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Resilience"
type: concept
tags: [sre, reliability, engineering, fault-tolerance]
last_updated: 2026-04-20
---
# Resilience
韧性Resilience是系统在面对故障、压力和变化时保持服务可用性的能力。SRE 的核心目标之一就是建立和维持系统韧性。
## Definition
韧性不仅是"不故障",而是:
- **故障吸收**:系统能够吸收和缓解故障的影响
- **快速恢复**:故障发生后能快速恢复正常服务
- **适应性学习**:从故障中学习,持续改进
## The 5 Things Resilience Cannot Be Automated
Uptime Labs 总结了 5 种无法被自动化的韧性要素:
### 1. Learning学习
从故障和Near-miss中提取经验教训形成组织知识。
### 2. Decision-Making决策
在高压情况下做出正确判断,选择最优响应策略。
### 3. Prioritization优先级排序
在多个问题同时发生时,决定处理顺序。
### 4. Communication沟通
协调团队、通知利益相关者、管理期望。
### 5. Adaptation适应
根据新情况调整策略,不拘泥于预设剧本。
## SRE Practices for Resilience
- [[BlamelessPostMortem]]:从故障中学习
- [[Self-Healing]]:自动化恢复机制
- [[Observability]]:理解系统状态
- [[Organizational-Second-Hit-Syndrome]]:理解组织层面的韧性
- [[Chaos-Engineering]]:主动发现弱点
## Relationship to Other Concepts
- **Reliability** 是韧性的组成部分
- **Fault Tolerance** 是实现韧性的手段之一
- **Incident Response** 是韧性响应的执行过程
## Source
- SRE Weekly Issue #513 — [[sre-weekly-issue-513]]