31 lines
884 B
Markdown
31 lines
884 B
Markdown
---
|
||
title: "Observability Engineering"
|
||
type: concept
|
||
tags: [monitoring, sre]
|
||
---
|
||
|
||
## Definition
|
||
可观测性工程是通过收集、分析和利用系统运行时数据(指标、日志、追踪)来持续理解系统健康状态的能力。
|
||
|
||
## Three Pillars
|
||
1. **Metrics(指标)**:数值型数据,如 CPU 使用率、请求延迟
|
||
2. **Logs(日志)**:事件记录,详细描述系统活动
|
||
3. **Traces(追踪)**:请求在系统中的完整调用链路
|
||
|
||
## Goal
|
||
不仅知道"系统是否正常运行",更能理解"系统为什么这样运行",实现:
|
||
- 问题快速定位
|
||
- 根因分析
|
||
- 主动式运维
|
||
- 容量规划
|
||
|
||
## Related Tools
|
||
- Prometheus:指标收集和存储
|
||
- Grafana:可视化
|
||
- Jaeger:分布式追踪
|
||
- ELK Stack:日志分析
|
||
|
||
## Related Concepts
|
||
- [[SRE]]:站点可靠性工程
|
||
- [[Monitoring]]:监控
|
||
- [[Alerting]]:告警 |