--- title: 可观测性 type: concept tags: [monitoring, SRE, infrastructure] sources: [] last_updated: 2026-04-15 --- ## 定义 系统外部可推断其内部状态的能力。包含三大支柱:Metrics(指标)、Logs(日志)、Traces(链路追踪)。 ## 核心组成 - **Metrics**:Prometheus 采集的数值型时序数据,如 CPU 使用率、请求延迟 - **Logs**:事件发生的文本记录,如应用错误日志 - **Traces**:请求在分布式系统中的完整调用链路,如 OpenTelemetry ## 工具链 - Metrics:[[Prometheus]] + [[Grafana]] - Logs:[[Loki]] + Promtail + Grafana - Traces:Jaeger/Zipkin + Grafana Tempo ## 在 Wiki 中的角色 - [[家庭监控方案 Prometheus + Grafana + Node Exporter + cAdvisor + Blackbox]] 覆盖 Metrics 和部分合成监测 - 扩展路径:加 Loki + Promtail 补全日志覆盖