2.2 KiB
2.2 KiB
title, type, tags, sources, last_updated
| title | type | tags | sources | last_updated | |||||
|---|---|---|---|---|---|---|---|---|---|
| Alerting | concept |
|
|
2026-04-22 |
Definition
Alerting 是在指标超过预设阈值时,主动通知相关人员的机制。与被动查询仪表盘不同,告警实现"异常来找人"而非"人去查异常"的范式转变。
核心洞察
"指标异常不是被看到,而是被通知"
告警生命周期
Threshold Exceeded → Alert Triggered → Notification Sent → Acknowledged → Resolved
│ │ │ │ │
监控规则 事件生成 多渠道推送 用户确认 问题修复
告警类型
-
阈值告警
- 固定阈值:
if cpu > 90% → alert - 变化率:
if stars_change > 50/hour → alert
- 固定阈值:
-
趋势告警
- 异常检测: Twitter 负面情绪突增
- 预测告警: 基于历史趋势预测故障
-
复合告警
- 多条件组合:
if cpu > 80% AND disk < 20% → alert
- 多条件组合:
告警渠道
| 渠道 | 适用场景 | 优势 |
|---|---|---|
| Discord | 团队协作/实时讨论 | 频道分类、@mention |
| 正式记录/异步通知 | 归档、可搜索 | |
| Slack | 企业团队集成 | 频道/线程组织 |
| Telegram | 个人/移动优先 | 即时推送 |
| SMS | 紧急故障 | 无网络依赖 |
告警疲劳管理
- 聚合: 相似告警合并,减少噪音
- 静默期: 维护窗口自动静默
- 升级: 无人响应时升级通知级别
- 去重: 同一问题不重复通知
与 Prometheus Alertmanager 的对比
| 维度 | 自定义 Alerting | Prometheus Alertmanager |
|---|---|---|
| 触发规则 | 自然语言描述 | PromQL 表达式 |
| 数据源 | 任意 API | Prometheus metrics |
| 灵活性 | 高(对话式调整) | 中(规则编写) |
| 集成成本 | 低 | 中 |
Related Concepts
- Dynamic-Dashboard — 告警是动态仪表盘的核心输出
- Scheduled-Task-Flywheel — 定时检查是告警的前置条件
- Prometheus告警规则 — Prometheus 生态的规则定义方式