50 lines
1.6 KiB
Markdown
50 lines
1.6 KiB
Markdown
---
|
||
title: "Resilience"
|
||
type: concept
|
||
tags: [sre, reliability, engineering, fault-tolerance]
|
||
last_updated: 2026-04-20
|
||
---
|
||
|
||
# Resilience
|
||
|
||
韧性(Resilience)是系统在面对故障、压力和变化时保持服务可用性的能力。SRE 的核心目标之一就是建立和维持系统韧性。
|
||
|
||
## Definition
|
||
韧性不仅是"不故障",而是:
|
||
- **故障吸收**:系统能够吸收和缓解故障的影响
|
||
- **快速恢复**:故障发生后能快速恢复正常服务
|
||
- **适应性学习**:从故障中学习,持续改进
|
||
|
||
## The 5 Things Resilience Cannot Be Automated
|
||
Uptime Labs 总结了 5 种无法被自动化的韧性要素:
|
||
|
||
### 1. Learning(学习)
|
||
从故障和Near-miss中提取经验教训,形成组织知识。
|
||
|
||
### 2. Decision-Making(决策)
|
||
在高压情况下做出正确判断,选择最优响应策略。
|
||
|
||
### 3. Prioritization(优先级排序)
|
||
在多个问题同时发生时,决定处理顺序。
|
||
|
||
### 4. Communication(沟通)
|
||
协调团队、通知利益相关者、管理期望。
|
||
|
||
### 5. Adaptation(适应)
|
||
根据新情况调整策略,不拘泥于预设剧本。
|
||
|
||
## SRE Practices for Resilience
|
||
- [[BlamelessPostMortem]]:从故障中学习
|
||
- [[Self-Healing]]:自动化恢复机制
|
||
- [[Observability]]:理解系统状态
|
||
- [[Organizational-Second-Hit-Syndrome]]:理解组织层面的韧性
|
||
- [[Chaos-Engineering]]:主动发现弱点
|
||
|
||
## Relationship to Other Concepts
|
||
- **Reliability** 是韧性的组成部分
|
||
- **Fault Tolerance** 是实现韧性的手段之一
|
||
- **Incident Response** 是韧性响应的执行过程
|
||
|
||
## Source
|
||
- SRE Weekly Issue #513 — [[sre-weekly-issue-513]]
|