Files
nexus/wiki/sources/scenario-incident-response.md
2026-05-03 05:42:12 +08:00

4.1 KiB
Raw Blame History

title, type, tags, date
title type tags date
Incident Response Runbook source
2026-05-01

Source File

Summary用中文描述

  • 核心主题NEXUS 多 Agent 协作框架下的生产事故结构化响应手册——从检测到复盘的完整五阶段流水线
  • 问题域:多 Agent 协作生产环境中的事故响应协调问题P0~P3 四个严重等级3-8 个 Agent 并行响应)
  • 方法/机制:严重等级分类 → 按等级激活对应响应团队 → 五阶段标准响应流程(检测分诊/调查/缓解/解决验证/复盘)→ 标准化沟通模板 → 升级矩阵
  • 结论/价值:为 NEXUS 框架提供即插即用的生产事故响应 SOP实现多 Agent 无缝协调,避免事故响应混乱导致的影响扩大

Key Claims用中文描述

  • P0Critical事故需要 6 种 Agent 角色(总指挥/部署回滚/后端调查/前端调查/用户沟通/高管简报)全并行激活
  • 五阶段响应流程中调查阶段Step 2采用并行调查模式——基础设施/后端/DevOps 三路同时启动
  • 缓解阶段Step 3根据根因类型部署/基础设施/代码/外部依赖)触发差异化决策树
  • 复盘必须在 48 小时内完成,包含时间线重建/根因分析/影响评估/预防措施/行动项五项
  • 升级矩阵定义了 P0 30分钟未解决/P1 2小时未解决/数据泄露/用户数据影响/营收影响>$X 五类升级条件

Key Quotes

"Something is broken in production. Users are affected. Speed of response matters, but so does doing it right." — 场景设定说明

Key Concepts

Key Entities

Connections

Contradictions

  • engineering-incident-response-commander 的角色命名差异:
    • 冲突点runbook 中称"Incident Commander"commander 源文件中称"Incident Response Commander"
    • 当前观点runbook 侧重"指挥官"角色功能commander 文档侧重 Agent"个性定义"
    • 协调方案视为同一角色的不同视角——runbook 定义做什么commander 文档定义怎么做的行为规范