--- title: "监控体系" type: concept tags: [monitoring, prometheus, grafana, metrics] last_updated: 2025-11-11 --- ## Definition 监控体系是用于收集、展示和告警系统/应用指标的完整解决方案。 ## 核心组件 | 组件 | 用途 | |------|------| | Prometheus | 时序数据库,采集和存储指标 | | Grafana | 可视化仪表盘和告警管理 | | Alertmanager | 告警分发(邮件/Slack/Webhook) | ## 数据采集层(Exporters) | Exporter | 采集内容 | 端口 | |----------|----------|------| | node_exporter | 主机指标(CPU/内存/磁盘/网络) | 9100 | | cAdvisor | Docker容器指标 | 8080 | | blackbox_exporter | HTTP/TCP/DNS探测 | 9115 | ## 监控维度 1. **主机层**:CPU、内存、磁盘、网络、I/O 2. **容器层**:运行状态、重启次数、资源限制 3. **服务层**:HTTP可用性、响应码、延迟、错误率、TLS证书 4. **日志层**:应用错误/异常(可选Loki) ## 推荐告警规则 - CPU使用率>85%持续2分钟 - 磁盘剩余空间<10% - 内存可用<15% - HTTP探测失败连续2分钟 - TLS证书剩余<14天 ## 相关文档 - [[家庭监控方案:Prometheus + Grafana + Node Exporter + cAdvisor + Blackbox]]