Files
nexus/wiki/concepts/监控体系.md
2026-04-14 16:02:50 +08:00

1.2 KiB
Raw Blame History

title, type, tags, last_updated
title type tags last_updated
监控体系 concept
monitoring
prometheus
grafana
metrics
2025-11-11

Definition

监控体系是用于收集、展示和告警系统/应用指标的完整解决方案。

核心组件

组件 用途
Prometheus 时序数据库,采集和存储指标
Grafana 可视化仪表盘和告警管理
Alertmanager 告警分发(邮件/Slack/Webhook

数据采集层Exporters

Exporter 采集内容 端口
node_exporter 主机指标(CPU/内存/磁盘/网络) 9100
cAdvisor Docker容器指标 8080
blackbox_exporter HTTP/TCP/DNS探测 9115

监控维度

  1. 主机层CPU、内存、磁盘、网络、I/O
  2. 容器层:运行状态、重启次数、资源限制
  3. 服务层HTTP可用性、响应码、延迟、错误率、TLS证书
  4. 日志层:应用错误/异常可选Loki

推荐告警规则

  • CPU使用率>85%持续2分钟
  • 磁盘剩余空间<10%
  • 内存可用<15%
  • HTTP探测失败连续2分钟
  • TLS证书剩余<14天

相关文档