Files
nexus/wiki/concepts/Observability.md
2026-04-29 00:02:51 +08:00

73 lines
3.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Observability"
type: concept
tags: [Observability, SRE, Cloud-Native, Telemetry, Monitoring, Reliability]
sources:
- public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113
- ctp-topic-67-cloud-native-observability-using-opentelemetry
- public-cloud-learning-sessions-opentext-evolving-from-dr-to-recovery-assurance-2
last_updated: 2026-04-29
---
## Observability可观测性
可观测性Observability是指系统通过其外部输出理解其内部状态的能力。在软件工程中可观测性通过遥测数据Telemetry——指标Metrics、日志Logs、追踪Traces——持续理解系统健康状态是 [[SRE]] 和 [[Recovery-Assurance]] 的核心技术基础。
## Three Pillars
可观测性三大支柱Three Pillars of Observability
| 支柱 | 说明 | 示例 |
|------|------|------|
| **Metrics指标** | 聚合的数值数据,反映系统状态趋势 | CPU 使用率、请求延迟、错误率 |
| **Logs日志** | 离散的事件记录,按时间顺序记录系统活动 | 访问日志、错误日志、审计日志 |
| **Traces追踪** | 跨服务和组件的请求传播路径 | 分布式链路追踪、调用链可视化 |
## Observability vs. Monitoring
传统监控Monitoring与可观测性Observability的核心区别
| 维度 | 传统监控Monitoring | 可观测性Observability |
|------|---------------------|-------------------------|
| **目标** | 回答预设问题 | 回答任意未知问题 |
| **假设** | 故障模式已知 | 故障模式未知High Cardinality |
| **数据** | 聚合指标,低基数 | 原始事件,高基数 |
| **根因定位** | 依赖仪表板预设视图 | 通过遥测数据探索定位 |
| **适用场景** | 稳定系统 | 云原生、分布式系统 |
> "You can't monitor your way to understanding a distributed system. You need observability." — Charity Majors
## Observability Engineering
可观测性工程Observability Engineering是将可观测性作为架构设计原则在软件开发生命周期中内嵌遥测数据收集
- **Left-Shift**:在开发阶段就定义 SLI/SLO持续验证
- **Telemetry as Code**:将遥测配置纳入 IaC实现版本化管理
- **Continuous Validation**用主动探测Synthetic Monitoring验证恢复路径
## Connection to SRE and Recovery Assurance
在 [[SRE]] 实践中,可观测性是实现可靠性目标的必要条件:
- **SLI/SLO/SLA 的测量基础**:可观测性提供量化可靠性的原始数据
- **Error Budget 的支撑**:通过指标追踪 Error Budget 消耗速度
- **On-Call 响应的依据**:日志和追踪是 MTTRMean Time To Recovery的核心数据源
- **[[Recovery-Assurance]] 的前提**:无法观测的系统无法保证恢复能力
## OpenTelemetry
[[OpenTelemetry]]OTel是 CNCF 的开源可观测性框架,提供厂商中立的指标、日志、追踪统一采集标准。
## Related Concepts
- [[SRE]] — 可观测性是 SRE 四大黄金信号的基础
- [[Recovery-Assurance]] — 可观测性是 Recovery Assurance 的技术前提
- [[OpenTelemetry]] — 可观测性工程的具体实现框架
- [[RTO]] / [[RPO]] — 可观测性支撑 RTO/RPO 的持续监控
## Sources
- [[public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113]]
- [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
- [[public-cloud-learning-sessions-opentext-evolving-from-dr-to-recovery-assurance-2]]