Auto-sync: 2026-04-18 05:18
This commit is contained in:
27
wiki/concepts/SRE.md
Normal file
27
wiki/concepts/SRE.md
Normal file
@@ -0,0 +1,27 @@
|
||||
---
|
||||
title: "SRE"
|
||||
type: concept
|
||||
tags: [sre, devops, reliability]
|
||||
---
|
||||
|
||||
## Definition
|
||||
SRE(Site Reliability Engineering,站点可靠性工程)是一种将软件工程方法应用于运维问题的实践,旨在创建高度可靠和可扩展的系统。
|
||||
|
||||
## Core Practices
|
||||
- **SLI/SLO/SLA**:服务水平指标/目标/协议
|
||||
- **错误预算**:允许的故障配额,用于平衡创新与稳定性
|
||||
- **Postmortem(事后分析)**:不追究责任的故障复盘,提取学习教训
|
||||
- **Toil Reduction**:减少重复性手工运维工作
|
||||
|
||||
## Key Metrics
|
||||
- **MTTR**(Mean Time To Recovery):平均恢复时间
|
||||
- **MTTF**(Mean Time To Failure):平均故障间隔时间
|
||||
- **可用性目标**:通常为 99.9%(三个九)到 99.99%(四个九)
|
||||
|
||||
## Related Entities
|
||||
- [[AI SRE]] — 使用 AI 自动化 SRE 任务的工具
|
||||
|
||||
## Related Concepts
|
||||
- [[DevOps]] — 结合开发与运营实现持续软件交付的方法论
|
||||
- [[混沌工程]] — 主动测试系统韧性的实践方法
|
||||
- [[无责复盘]] — 不追究个人责任,聚焦问题本质的失败分析方法
|
||||
Reference in New Issue
Block a user