57 lines
4.1 KiB
Markdown
57 lines
4.1 KiB
Markdown
---
|
||
title: "Incident Response Runbook"
|
||
type: source
|
||
tags: []
|
||
date: 2026-05-01
|
||
---
|
||
|
||
## Source File
|
||
- [[Agent/agency-agents/strategy/runbooks/scenario-incident-response.md]]
|
||
|
||
## Summary(用中文描述)
|
||
- 核心主题:NEXUS 多 Agent 协作框架下的生产事故结构化响应手册——从检测到复盘的完整五阶段流水线
|
||
- 问题域:多 Agent 协作生产环境中的事故响应协调问题(P0~P3 四个严重等级,3-8 个 Agent 并行响应)
|
||
- 方法/机制:严重等级分类 → 按等级激活对应响应团队 → 五阶段标准响应流程(检测分诊/调查/缓解/解决验证/复盘)→ 标准化沟通模板 → 升级矩阵
|
||
- 结论/价值:为 NEXUS 框架提供即插即用的生产事故响应 SOP,实现多 Agent 无缝协调,避免事故响应混乱导致的影响扩大
|
||
|
||
## Key Claims(用中文描述)
|
||
- P0(Critical)事故需要 6 种 Agent 角色(总指挥/部署回滚/后端调查/前端调查/用户沟通/高管简报)全并行激活
|
||
- 五阶段响应流程中,调查阶段(Step 2)采用并行调查模式——基础设施/后端/DevOps 三路同时启动
|
||
- 缓解阶段(Step 3)根据根因类型(部署/基础设施/代码/外部依赖)触发差异化决策树
|
||
- 复盘必须在 48 小时内完成,包含时间线重建/根因分析/影响评估/预防措施/行动项五项
|
||
- 升级矩阵定义了 P0 30分钟未解决/P1 2小时未解决/数据泄露/用户数据影响/营收影响>$X 五类升级条件
|
||
|
||
## Key Quotes
|
||
> "Something is broken in production. Users are affected. Speed of response matters, but so does doing it right." — 场景设定说明
|
||
|
||
## Key Concepts
|
||
- [[Severity-Classification]]:P0-P3 四级事故严重等级划分及对应响应时间
|
||
- [[Incident-Response-Sequence]]:检测分诊→调查→缓解→解决验证→复盘五阶段标准流程
|
||
- [[Response-Team-Activation]]:按严重等级动态激活对应 Agent 团队规模(3-8人)
|
||
- [[Communication-Templates]]:状态页面更新模板和高管简报模板的标准化格式
|
||
- [[Escalation-Matrix]]:事故未解决时的升级条件和升级对象矩阵
|
||
|
||
## Key Entities
|
||
- [[Infrastructure-Maintainer]]:基础设施维护 Agent——P0/P1 事故指挥官,负责评估范围、协调响应
|
||
- [[DevOps-Automator]]:DevOps 自动化 Agent——负责部署/回滚/基础设施变更执行
|
||
- [[Backend-Architect]]:后端架构 Agent——P0/P1 事故中负责数据库/API/服务间通信诊断
|
||
- [[Frontend-Developer]]:前端开发 Agent——负责客户端侧问题诊断
|
||
- [[Support-Responder]]:支持应答 Agent——负责用户沟通和状态页面更新
|
||
- [[Executive-Summary-Generator]]:高管简报生成 Agent——P0 事故专用,负责实时向利益相关方更新
|
||
- [[Evidence-Collector]]:证据收集 Agent——验证修复有效性和截图证据
|
||
- [[API-Tester]]:API 测试 Agent——API 相关事故回归测试执行
|
||
- [[Workflow-Optimizer]]:工作流优化 Agent——主导复盘会议和预防措施制定
|
||
|
||
## Connections
|
||
- [[NEXUS]] ← 属于 ← [[scenario-incident-response]](NEXUS 框架内的生产事故响应场景)
|
||
- [[scenario-startup-mvp]] ← 并行场景 ← [[scenario-incident-response]](同为 NEXUS runbook 场景)
|
||
- [[scenario-marketing-campaign]] ← 并行场景 ← [[scenario-incident-response]](同为 NEXUS runbook 场景)
|
||
- [[handoff-templates]] ← extends ← [[scenario-incident-response]](handoff-templates 中的 Incident Handoff 模板是本场景交接格式)
|
||
- [[engineering-incident-response-commander]] ← 相关 ← [[scenario-incident-response]](Incident Response Commander Agent 是本 runbook 的具体角色定义)
|
||
|
||
## Contradictions
|
||
- 与 [[engineering-incident-response-commander]] 的角色命名差异:
|
||
- 冲突点:runbook 中称"Incident Commander",commander 源文件中称"Incident Response Commander"
|
||
- 当前观点:runbook 侧重"指挥官"角色功能,commander 文档侧重 Agent"个性定义"
|
||
- 协调方案:视为同一角色的不同视角——runbook 定义做什么,commander 文档定义怎么做的行为规范
|