Files
nexus/wiki/entities/IncidentCommander.md
2026-05-03 05:42:12 +08:00

2.8 KiB
Raw Blame History

title, type, tags, last_updated
title type tags last_updated
Incident Commander (IC) entity
incident-management
reliability
roles
2026-05-01

Definition

事故指挥官Incident CommanderIC是生产事故响应中的核心协调角色——唯一决策者负责管理时间线、分配角色、驱动结构化决策。核心理念"Single throat to yell at, single brain to decide"(单一出口发号施令,单一大脑做决策)。

Core Responsibilities

1. 事故协调

  • 在事故声明后立即接管指挥权
  • 分配明确角色Communications Lead、Technical Lead、Scribe
  • 维持固定节奏的状态更新按严重等级SEV1 每 15 分钟)

2. 时间线管理

  • 记录每个行动和发现(含 UTC 时间戳)
  • 维护准确的事故时间线作为决策依据
  • 确保所有参与者信息同步

3. 决策驱动

  • 在时间盒内做出决策15 分钟假设验证)
  • 优先止血(缓解)而非根因分析
  • 当调查路径无法确认时,果断切换

4. 沟通管理

  • 协调干系人(工程师/管理层/客户)的信息发布
  • 确保沟通节奏与严重等级匹配
  • 宣布事故解决并发送 All-Clear

Incident Roles Ecosystem

Incident Commander (IC)
├── Communications Lead — 干系人状态更新(内部/外部)
├── Technical Lead — 诊断和修复(使用 runbooks、可观测性工具
└── Scribe — 实时行动记录和时间线维护

Severity-Based Response

严重等级 IC 响应时间 更新节奏 升级路径
SEV1 < 5 分钟 每 15 分钟 VP Eng + CTO 即时
SEV2 < 15 分钟 每 30 分钟 Eng Manager 15 分钟内
SEV3 < 1 小时 每 2 小时 Team lead 下次站会
SEV4 下一个工作日 每日 Backlog 评审

Key Rules

规则 说明
决策权威 IC 是唯一决策者,其他角色执行和支持
不跳级 永远不跳过严重等级分类(决定后续所有行动)
实时记录 行动必须实时记录,而非事后回忆
先止血后治本 优先缓解影响,根因分析在稳定后进行

Success Metrics

  • MTTDMean Time to Detect< 5 分钟SEV1/2
  • MTTRMean Time to Resolve< 30 分钟SEV1
  • 100% SEV1/2 事故在 48 小时内完成复盘
  • 零重复事故(同样的根本原因不再出现第二次)
角色 关系
engineering-incident-response-commander IC Agent 的智能体人格定义
engineering-sre IC 的工程背景,通常由 SRE 担任 IC 角色
OnCallEngineer IC 通常由 on-call 工程师担任或指定

Aliases

  • ICIncident Commander
  • Incident Lead
  • Response Coordinator