1.7 KiB
1.7 KiB
title, type, tags, last_updated
| title | type | tags | last_updated | |||||
|---|---|---|---|---|---|---|---|---|
| AI For On-Call | concept |
|
2026-04-20 |
AI For On-Call
AI 在值班(On-Call)场景中的最佳应用不是自主修复,而是为值班工程师提供足够的上下文以快速修复故障。
Core Thesis
"AI's most valuable role in SRE isn't autonomous remediation. It's making sure on-call engineers have the context to fix incidents fast." — Heinrich Hartmann
Why Context Matters
值班工程师在面对故障时最大的挑战不是不知道怎么做,而是:
- 信息过载:日志、指标、告警太多,难以快速定位问题
- 上下文丢失:不熟悉的服务/代码,需要时间理解
- 时间压力:MTTR 目标要求快速响应
AI 辅助 On-Call 的关键场景
1. 上下文聚合(Context Aggregation)
AI 从多个来源聚合相关信息:
- 告警历史和趋势
- 相关的故障报告
- 最近变更记录
- 依赖服务状态
2. 快速诊断辅助(Rapid Diagnosis)
- 总结告警的根本原因
- 推荐可能有效的修复步骤
- 识别类似的已知问题
3. 值班交接增强(On-Call Handoff)
- 自动生成值班交接摘要
- 突出显示未解决的问题
- 提供历史上下文
What AI Should NOT Do
- 自动执行修复:缺乏足够上下文的自动修复可能造成更大损害
- 绕过人工审批:关键变更需要人工确认
- 忽视不确定性:AI 应清楚表达置信度
Related Products
- RunLLM:专注于 On-Call 上下文增强的 AI 产品
Related Concepts
Source
- SRE Weekly Issue #513 — sre-weekly-issue-513