4.1 KiB
4.1 KiB
title, type, tags, date
| title | type | tags | date |
|---|---|---|---|
| Incident Response Runbook | source | 2026-05-01 |
Source File
Summary(用中文描述)
- 核心主题:NEXUS 多 Agent 协作框架下的生产事故结构化响应手册——从检测到复盘的完整五阶段流水线
- 问题域:多 Agent 协作生产环境中的事故响应协调问题(P0~P3 四个严重等级,3-8 个 Agent 并行响应)
- 方法/机制:严重等级分类 → 按等级激活对应响应团队 → 五阶段标准响应流程(检测分诊/调查/缓解/解决验证/复盘)→ 标准化沟通模板 → 升级矩阵
- 结论/价值:为 NEXUS 框架提供即插即用的生产事故响应 SOP,实现多 Agent 无缝协调,避免事故响应混乱导致的影响扩大
Key Claims(用中文描述)
- P0(Critical)事故需要 6 种 Agent 角色(总指挥/部署回滚/后端调查/前端调查/用户沟通/高管简报)全并行激活
- 五阶段响应流程中,调查阶段(Step 2)采用并行调查模式——基础设施/后端/DevOps 三路同时启动
- 缓解阶段(Step 3)根据根因类型(部署/基础设施/代码/外部依赖)触发差异化决策树
- 复盘必须在 48 小时内完成,包含时间线重建/根因分析/影响评估/预防措施/行动项五项
- 升级矩阵定义了 P0 30分钟未解决/P1 2小时未解决/数据泄露/用户数据影响/营收影响>$X 五类升级条件
Key Quotes
"Something is broken in production. Users are affected. Speed of response matters, but so does doing it right." — 场景设定说明
Key Concepts
- Severity-Classification:P0-P3 四级事故严重等级划分及对应响应时间
- Incident-Response-Sequence:检测分诊→调查→缓解→解决验证→复盘五阶段标准流程
- Response-Team-Activation:按严重等级动态激活对应 Agent 团队规模(3-8人)
- Communication-Templates:状态页面更新模板和高管简报模板的标准化格式
- Escalation-Matrix:事故未解决时的升级条件和升级对象矩阵
Key Entities
- Infrastructure-Maintainer:基础设施维护 Agent——P0/P1 事故指挥官,负责评估范围、协调响应
- DevOps-Automator:DevOps 自动化 Agent——负责部署/回滚/基础设施变更执行
- Backend-Architect:后端架构 Agent——P0/P1 事故中负责数据库/API/服务间通信诊断
- Frontend-Developer:前端开发 Agent——负责客户端侧问题诊断
- Support-Responder:支持应答 Agent——负责用户沟通和状态页面更新
- Executive-Summary-Generator:高管简报生成 Agent——P0 事故专用,负责实时向利益相关方更新
- Evidence-Collector:证据收集 Agent——验证修复有效性和截图证据
- API-Tester:API 测试 Agent——API 相关事故回归测试执行
- Workflow-Optimizer:工作流优化 Agent——主导复盘会议和预防措施制定
Connections
- NEXUS ← 属于 ← scenario-incident-response(NEXUS 框架内的生产事故响应场景)
- scenario-startup-mvp ← 并行场景 ← scenario-incident-response(同为 NEXUS runbook 场景)
- scenario-marketing-campaign ← 并行场景 ← scenario-incident-response(同为 NEXUS runbook 场景)
- handoff-templates ← extends ← scenario-incident-response(handoff-templates 中的 Incident Handoff 模板是本场景交接格式)
- engineering-incident-response-commander ← 相关 ← scenario-incident-response(Incident Response Commander Agent 是本 runbook 的具体角色定义)
Contradictions
- 与 engineering-incident-response-commander 的角色命名差异:
- 冲突点:runbook 中称"Incident Commander",commander 源文件中称"Incident Response Commander"
- 当前观点:runbook 侧重"指挥官"角色功能,commander 文档侧重 Agent"个性定义"
- 协调方案:视为同一角色的不同视角——runbook 定义做什么,commander 文档定义怎么做的行为规范