ishenwei/nexus

Files

weishen 111bc65b7b Update nexus wiki content

2026-05-03 05:42:12 +08:00

2.6 KiB

Raw Blame History

title, type, tags, sources, last_updated

title

type

tags

sources

last_updated

Observability

concept

DevOps

Monitoring

Reliability

engineering-devops-automator

2026-05-01

Observability

定义

可观测性（Observability）是通过收集系统外部输出来推断其内部状态的能力，核心目标是回答"为什么系统出现了问题"，而不仅仅是"系统是否正常"。

可观测性三支柱

1. 指标（Metrics）

定义：数值型测量，反映系统健康状况
特点：聚合性强、支持告警、存储成本相对低
工具：Prometheus、CloudWatch、DataDog
示例：CPU 使用率、请求延迟、错误率、QPS

2. 日志（Logs）

定义：系统产生的离散事件记录
特点：详细信息、时序排列、关联分析
工具：ELK Stack（Loki）、CloudWatch Logs
示例：访问日志、错误日志、审计日志

3. 追踪（Traces）

定义：请求在分布式系统中的完整调用路径
特点：端到端关联、延迟分析、瓶颈定位
工具：Jaeger、Zipkin、AWS X-Ray
示例：微服务调用链、数据库查询耗时

SRE 可观测性实践

RED 方法（面向服务）

Rate：请求率（每秒请求数）
Errors：错误率（失败请求百分比）
Duration：延迟（响应时间分布）

USE 方法（面向资源）

Utilization：利用率
Saturation：饱和度
Errors：错误

在 DevOps Automator 中的应用

DevOps Automator 的可观测性体系：

指标收集：Prometheus scrape metrics
可视化：Grafana Dashboard
告警：Prometheus Alert Rules → AlertManager
日志聚合：可选 Loki/ELK
分布式追踪：可选 Jaeger

关键监控指标

部署频率（Deployment Frequency）
变更失败率（Change Failure Rate）
MTTR（Mean Time To Recovery）
可用性（Availability）

相关概念

Prometheus：指标采集和告警核心组件
Grafana：指标可视化平台
Zero-Downtime Deployment：可观测性支撑零停机部署的监控需求

相关工具

类型	工具
指标	Prometheus, CloudWatch, DataDog, New Relic
日志	ELK Stack, Loki, CloudWatch Logs
追踪	Jaeger, Zipkin, AWS X-Ray, OpenTelemetry
可视化	Grafana, Datadog Dashboards

SRE 四个黄金信号

Google SRE 提出的关键指标：

Latency：延迟
Traffic：流量
Errors：错误
Saturation：饱和度

Aliases

可观测性
Observability
Monitoring
监控
可观测系统工程