Update nexus wiki content

This commit is contained in:
2026-05-03 05:42:06 +08:00
parent 90f3811b83
commit 111bc65b7b
707 changed files with 32306 additions and 7289 deletions

View File

@@ -0,0 +1,56 @@
---
title: "Incident Response Runbook"
type: source
tags: []
date: 2026-05-01
---
## Source File
- [[Agent/agency-agents/strategy/runbooks/scenario-incident-response.md]]
## Summary用中文描述
- 核心主题NEXUS 多 Agent 协作框架下的生产事故结构化响应手册——从检测到复盘的完整五阶段流水线
- 问题域:多 Agent 协作生产环境中的事故响应协调问题P0~P3 四个严重等级3-8 个 Agent 并行响应)
- 方法/机制:严重等级分类 → 按等级激活对应响应团队 → 五阶段标准响应流程(检测分诊/调查/缓解/解决验证/复盘)→ 标准化沟通模板 → 升级矩阵
- 结论/价值:为 NEXUS 框架提供即插即用的生产事故响应 SOP实现多 Agent 无缝协调,避免事故响应混乱导致的影响扩大
## Key Claims用中文描述
- P0Critical事故需要 6 种 Agent 角色(总指挥/部署回滚/后端调查/前端调查/用户沟通/高管简报)全并行激活
- 五阶段响应流程中调查阶段Step 2采用并行调查模式——基础设施/后端/DevOps 三路同时启动
- 缓解阶段Step 3根据根因类型部署/基础设施/代码/外部依赖)触发差异化决策树
- 复盘必须在 48 小时内完成,包含时间线重建/根因分析/影响评估/预防措施/行动项五项
- 升级矩阵定义了 P0 30分钟未解决/P1 2小时未解决/数据泄露/用户数据影响/营收影响>$X 五类升级条件
## Key Quotes
> "Something is broken in production. Users are affected. Speed of response matters, but so does doing it right." — 场景设定说明
## Key Concepts
- [[Severity-Classification]]P0-P3 四级事故严重等级划分及对应响应时间
- [[Incident-Response-Sequence]]:检测分诊→调查→缓解→解决验证→复盘五阶段标准流程
- [[Response-Team-Activation]]:按严重等级动态激活对应 Agent 团队规模3-8人
- [[Communication-Templates]]:状态页面更新模板和高管简报模板的标准化格式
- [[Escalation-Matrix]]:事故未解决时的升级条件和升级对象矩阵
## Key Entities
- [[Infrastructure-Maintainer]]:基础设施维护 Agent——P0/P1 事故指挥官,负责评估范围、协调响应
- [[DevOps-Automator]]DevOps 自动化 Agent——负责部署/回滚/基础设施变更执行
- [[Backend-Architect]]:后端架构 Agent——P0/P1 事故中负责数据库/API/服务间通信诊断
- [[Frontend-Developer]]:前端开发 Agent——负责客户端侧问题诊断
- [[Support-Responder]]:支持应答 Agent——负责用户沟通和状态页面更新
- [[Executive-Summary-Generator]]:高管简报生成 Agent——P0 事故专用,负责实时向利益相关方更新
- [[Evidence-Collector]]:证据收集 Agent——验证修复有效性和截图证据
- [[API-Tester]]API 测试 Agent——API 相关事故回归测试执行
- [[Workflow-Optimizer]]:工作流优化 Agent——主导复盘会议和预防措施制定
## Connections
- [[NEXUS]] ← 属于 ← [[scenario-incident-response]]NEXUS 框架内的生产事故响应场景)
- [[scenario-startup-mvp]] ← 并行场景 ← [[scenario-incident-response]](同为 NEXUS runbook 场景)
- [[scenario-marketing-campaign]] ← 并行场景 ← [[scenario-incident-response]](同为 NEXUS runbook 场景)
- [[handoff-templates]] ← extends ← [[scenario-incident-response]]handoff-templates 中的 Incident Handoff 模板是本场景交接格式)
- [[engineering-incident-response-commander]] ← 相关 ← [[scenario-incident-response]]Incident Response Commander Agent 是本 runbook 的具体角色定义)
## Contradictions
- 与 [[engineering-incident-response-commander]] 的角色命名差异:
- 冲突点runbook 中称"Incident Commander"commander 源文件中称"Incident Response Commander"
- 当前观点runbook 侧重"指挥官"角色功能commander 文档侧重 Agent"个性定义"
- 协调方案视为同一角色的不同视角——runbook 定义做什么commander 文档定义怎么做的行为规范