1.1 KiB
1.1 KiB
title, type, tags
| title | type | tags | |||
|---|---|---|---|---|---|
| SRE | concept |
|
Definition
SRE(Site Reliability Engineering,站点可靠性工程)是一种将软件工程方法应用于运维问题的实践,旨在创建高度可靠和可扩展的系统。
Core Practices
- SLI/SLO/SLA:服务水平指标/目标/协议
- 错误预算:允许的故障配额,用于平衡创新与稳定性
- Postmortem(事后分析):不追究责任的故障复盘,提取学习教训
- Toil Reduction:减少重复性手工运维工作
Key Metrics
- MTTR(Mean Time To Recovery):平均恢复时间
- MTTF(Mean Time To Failure):平均故障间隔时间
- 可用性目标:通常为 99.9%(三个九)到 99.99%(四个九)
Related Entities
- AI SRE — 使用 AI 自动化 SRE 任务的工具