Files
nexus/wiki/concepts/Observability.md
2026-04-27 16:26:34 +08:00

1.9 KiB
Raw Blame History

title, type, tags, last_updated
title type tags last_updated
Observability concept
devops
monitoring
sre
infrastructure
2026-04-26

Observability可观测性

中文名称: 可观测性

类型: 技术方法论 / SRE 核心支柱

别名:

  • 可观测性
  • 云原生可观测性
  • Observability Stack

Definition

可观测性Observability是指通过系统外部输出来推断其内部状态的能力。在 IT 运维领域,通常由三大支柱构成:

  1. 指标Metrics 系统运行时数值数据的时序聚合——如 CPU 使用率、内存占用、请求 QPS。代表工具Prometheus、InfluxDB、VictoriaMetrics。
  2. 日志Logs 系统运行事件的离散记录——如错误日志、访问日志、业务事件。代表工具ELKElasticsearch + Logstash + Kibana、Loki、Graylog。
  3. 链路Traces 分布式请求在多个服务间的调用路径追踪——如 HTTP 请求从 API → DB → Cache 的完整耗时。代表工具Jaeger、Zipkin、OpenTelemetry。

第三支柱趋势: OpenTelemetryOTel作为 CNCF 项目,正在成为可观测数据的统一采集标准,将 Traces、Metrics、Logs 三者以统一规范融合。


家庭监控场景下的应用

在家庭服务器/NAS 监控中,可观测性通过以下组件实现:

  • 指标: Prometheus + node_exporter + cAdvisor + blackbox_exporter
  • 可视化: Grafana 仪表盘
  • 告警: Alertmanager + 邮件/Slack 通知
  • 日志(可选): Loki + Promtail