Files
nexus/wiki/sources/scenario-incident-response.md
2026-05-03 05:42:12 +08:00

57 lines
4.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Incident Response Runbook"
type: source
tags: []
date: 2026-05-01
---
## Source File
- [[Agent/agency-agents/strategy/runbooks/scenario-incident-response.md]]
## Summary用中文描述
- 核心主题NEXUS 多 Agent 协作框架下的生产事故结构化响应手册——从检测到复盘的完整五阶段流水线
- 问题域:多 Agent 协作生产环境中的事故响应协调问题P0~P3 四个严重等级3-8 个 Agent 并行响应)
- 方法/机制:严重等级分类 → 按等级激活对应响应团队 → 五阶段标准响应流程(检测分诊/调查/缓解/解决验证/复盘)→ 标准化沟通模板 → 升级矩阵
- 结论/价值:为 NEXUS 框架提供即插即用的生产事故响应 SOP实现多 Agent 无缝协调,避免事故响应混乱导致的影响扩大
## Key Claims用中文描述
- P0Critical事故需要 6 种 Agent 角色(总指挥/部署回滚/后端调查/前端调查/用户沟通/高管简报)全并行激活
- 五阶段响应流程中调查阶段Step 2采用并行调查模式——基础设施/后端/DevOps 三路同时启动
- 缓解阶段Step 3根据根因类型部署/基础设施/代码/外部依赖)触发差异化决策树
- 复盘必须在 48 小时内完成,包含时间线重建/根因分析/影响评估/预防措施/行动项五项
- 升级矩阵定义了 P0 30分钟未解决/P1 2小时未解决/数据泄露/用户数据影响/营收影响>$X 五类升级条件
## Key Quotes
> "Something is broken in production. Users are affected. Speed of response matters, but so does doing it right." — 场景设定说明
## Key Concepts
- [[Severity-Classification]]P0-P3 四级事故严重等级划分及对应响应时间
- [[Incident-Response-Sequence]]:检测分诊→调查→缓解→解决验证→复盘五阶段标准流程
- [[Response-Team-Activation]]:按严重等级动态激活对应 Agent 团队规模3-8人
- [[Communication-Templates]]:状态页面更新模板和高管简报模板的标准化格式
- [[Escalation-Matrix]]:事故未解决时的升级条件和升级对象矩阵
## Key Entities
- [[Infrastructure-Maintainer]]:基础设施维护 Agent——P0/P1 事故指挥官,负责评估范围、协调响应
- [[DevOps-Automator]]DevOps 自动化 Agent——负责部署/回滚/基础设施变更执行
- [[Backend-Architect]]:后端架构 Agent——P0/P1 事故中负责数据库/API/服务间通信诊断
- [[Frontend-Developer]]:前端开发 Agent——负责客户端侧问题诊断
- [[Support-Responder]]:支持应答 Agent——负责用户沟通和状态页面更新
- [[Executive-Summary-Generator]]:高管简报生成 Agent——P0 事故专用,负责实时向利益相关方更新
- [[Evidence-Collector]]:证据收集 Agent——验证修复有效性和截图证据
- [[API-Tester]]API 测试 Agent——API 相关事故回归测试执行
- [[Workflow-Optimizer]]:工作流优化 Agent——主导复盘会议和预防措施制定
## Connections
- [[NEXUS]] ← 属于 ← [[scenario-incident-response]]NEXUS 框架内的生产事故响应场景)
- [[scenario-startup-mvp]] ← 并行场景 ← [[scenario-incident-response]](同为 NEXUS runbook 场景)
- [[scenario-marketing-campaign]] ← 并行场景 ← [[scenario-incident-response]](同为 NEXUS runbook 场景)
- [[handoff-templates]] ← extends ← [[scenario-incident-response]]handoff-templates 中的 Incident Handoff 模板是本场景交接格式)
- [[engineering-incident-response-commander]] ← 相关 ← [[scenario-incident-response]]Incident Response Commander Agent 是本 runbook 的具体角色定义)
## Contradictions
- 与 [[engineering-incident-response-commander]] 的角色命名差异:
- 冲突点runbook 中称"Incident Commander"commander 源文件中称"Incident Response Commander"
- 当前观点runbook 侧重"指挥官"角色功能commander 文档侧重 Agent"个性定义"
- 协调方案视为同一角色的不同视角——runbook 定义做什么commander 文档定义怎么做的行为规范