title, type, tags, last_updated
| title |
type |
tags |
last_updated |
| Incident Commander (IC) |
entity |
| incident-management |
| reliability |
| roles |
|
2026-05-01 |
Definition
事故指挥官(Incident Commander,IC)是生产事故响应中的核心协调角色——唯一决策者,负责管理时间线、分配角色、驱动结构化决策。核心理念:"Single throat to yell at, single brain to decide"(单一出口发号施令,单一大脑做决策)。
Core Responsibilities
1. 事故协调
- 在事故声明后立即接管指挥权
- 分配明确角色:Communications Lead、Technical Lead、Scribe
- 维持固定节奏的状态更新(按严重等级:SEV1 每 15 分钟)
2. 时间线管理
- 记录每个行动和发现(含 UTC 时间戳)
- 维护准确的事故时间线作为决策依据
- 确保所有参与者信息同步
3. 决策驱动
- 在时间盒内做出决策(15 分钟假设验证)
- 优先止血(缓解)而非根因分析
- 当调查路径无法确认时,果断切换
4. 沟通管理
- 协调干系人(工程师/管理层/客户)的信息发布
- 确保沟通节奏与严重等级匹配
- 宣布事故解决并发送 All-Clear
Incident Roles Ecosystem
Severity-Based Response
| 严重等级 |
IC 响应时间 |
更新节奏 |
升级路径 |
| SEV1 |
< 5 分钟 |
每 15 分钟 |
VP Eng + CTO 即时 |
| SEV2 |
< 15 分钟 |
每 30 分钟 |
Eng Manager 15 分钟内 |
| SEV3 |
< 1 小时 |
每 2 小时 |
Team lead 下次站会 |
| SEV4 |
下一个工作日 |
每日 |
Backlog 评审 |
Key Rules
| 规则 |
说明 |
| 决策权威 |
IC 是唯一决策者,其他角色执行和支持 |
| 不跳级 |
永远不跳过严重等级分类(决定后续所有行动) |
| 实时记录 |
行动必须实时记录,而非事后回忆 |
| 先止血后治本 |
优先缓解影响,根因分析在稳定后进行 |
Success Metrics
- MTTD(Mean Time to Detect):< 5 分钟(SEV1/2)
- MTTR(Mean Time to Resolve):< 30 分钟(SEV1)
- 100% SEV1/2 事故在 48 小时内完成复盘
- 零重复事故(同样的根本原因不再出现第二次)
Related Entities
Aliases
- IC(Incident Commander)
- Incident Lead
- Response Coordinator