Files
nexus/wiki/concepts/Observability.md
2026-04-29 00:02:51 +08:00

3.5 KiB
Raw Blame History

title, type, tags, sources, last_updated
title type tags sources last_updated
Observability concept
Observability
SRE
Cloud-Native
Telemetry
Monitoring
Reliability
public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113
ctp-topic-67-cloud-native-observability-using-opentelemetry
public-cloud-learning-sessions-opentext-evolving-from-dr-to-recovery-assurance-2
2026-04-29

Observability可观测性

可观测性Observability是指系统通过其外部输出理解其内部状态的能力。在软件工程中可观测性通过遥测数据Telemetry——指标Metrics、日志Logs、追踪Traces——持续理解系统健康状态SRERecovery-Assurance 的核心技术基础。

Three Pillars

可观测性三大支柱Three Pillars of Observability

支柱 说明 示例
Metrics指标 聚合的数值数据,反映系统状态趋势 CPU 使用率、请求延迟、错误率
Logs日志 离散的事件记录,按时间顺序记录系统活动 访问日志、错误日志、审计日志
Traces追踪 跨服务和组件的请求传播路径 分布式链路追踪、调用链可视化

Observability vs. Monitoring

传统监控Monitoring与可观测性Observability的核心区别

维度 传统监控Monitoring 可观测性Observability
目标 回答预设问题 回答任意未知问题
假设 故障模式已知 故障模式未知High Cardinality
数据 聚合指标,低基数 原始事件,高基数
根因定位 依赖仪表板预设视图 通过遥测数据探索定位
适用场景 稳定系统 云原生、分布式系统

"You can't monitor your way to understanding a distributed system. You need observability." — Charity Majors

Observability Engineering

可观测性工程Observability Engineering是将可观测性作为架构设计原则在软件开发生命周期中内嵌遥测数据收集

  • Left-Shift:在开发阶段就定义 SLI/SLO持续验证
  • Telemetry as Code:将遥测配置纳入 IaC实现版本化管理
  • Continuous Validation用主动探测Synthetic Monitoring验证恢复路径

Connection to SRE and Recovery Assurance

SRE 实践中,可观测性是实现可靠性目标的必要条件:

  • SLI/SLO/SLA 的测量基础:可观测性提供量化可靠性的原始数据
  • Error Budget 的支撑:通过指标追踪 Error Budget 消耗速度
  • On-Call 响应的依据:日志和追踪是 MTTRMean Time To Recovery的核心数据源
  • Recovery-Assurance 的前提:无法观测的系统无法保证恢复能力

OpenTelemetry

OpenTelemetryOTel是 CNCF 的开源可观测性框架,提供厂商中立的指标、日志、追踪统一采集标准。

  • SRE — 可观测性是 SRE 四大黄金信号的基础
  • Recovery-Assurance — 可观测性是 Recovery Assurance 的技术前提
  • OpenTelemetry — 可观测性工程的具体实现框架
  • RTO / RPO — 可观测性支撑 RTO/RPO 的持续监控

Sources