nexus/wiki/concepts/Alerting.md at faf3aa51bbdf2373ca9043fd62a268adbf02bba4

ishenwei/nexus

Fork 0

Files

Shen Wei f09834b5a5 Update nexus: fix conflicts and sync local changes

2026-04-26 12:06:50 +08:00

2.2 KiB

Raw Blame History

title, type, tags, sources, last_updated

title

type

Definition

Alerting 是在指标超过预设阈值时，主动通知相关人员的机制。与被动查询仪表盘不同，告警实现"异常来找人"而非"人去查异常"的范式转变。

核心洞察

"指标异常不是被看到，而是被通知"

告警生命周期

Threshold Exceeded → Alert Triggered → Notification Sent → Acknowledged → Resolved
       │                 │                │               │              │
   监控规则          事件生成         多渠道推送       用户确认        问题修复

告警类型

阈值告警
- 固定阈值: if cpu > 90% → alert
- 变化率: if stars_change > 50/hour → alert
趋势告警
- 异常检测: Twitter 负面情绪突增
- 预测告警: 基于历史趋势预测故障
复合告警
- 多条件组合: if cpu > 80% AND disk < 20% → alert

告警渠道

渠道	适用场景	优势
Discord	团队协作/实时讨论	频道分类、@mention
Email	正式记录/异步通知	归档、可搜索
Slack	企业团队集成	频道/线程组织
Telegram	个人/移动优先	即时推送
SMS	紧急故障	无网络依赖

告警疲劳管理

聚合: 相似告警合并，减少噪音
静默期: 维护窗口自动静默
升级: 无人响应时升级通知级别
去重: 同一问题不重复通知

与 Prometheus Alertmanager 的对比

维度	自定义 Alerting	Prometheus Alertmanager
触发规则	自然语言描述	PromQL 表达式
数据源	任意 API	Prometheus metrics
灵活性	高（对话式调整）	中（规则编写）
集成成本	低	中

Dynamic-Dashboard — 告警是动态仪表盘的核心输出
Scheduled-Task-Flywheel — 定时检查是告警的前置条件
Prometheus告警规则 — Prometheus 生态的规则定义方式

2.2 KiB Raw Blame History

Definition

核心洞察

告警生命周期

告警类型

告警渠道

告警疲劳管理

与 Prometheus Alertmanager 的对比

Related Concepts

2.2 KiB

Raw Blame History