79 lines
2.8 KiB
Markdown
79 lines
2.8 KiB
Markdown
---
|
||
title: "Incident Commander (IC)"
|
||
type: entity
|
||
tags: [incident-management, reliability, roles]
|
||
last_updated: 2026-05-01
|
||
---
|
||
|
||
## Definition
|
||
事故指挥官(Incident Commander,IC)是生产事故响应中的核心协调角色——唯一决策者,负责管理时间线、分配角色、驱动结构化决策。核心理念:**"Single throat to yell at, single brain to decide"**(单一出口发号施令,单一大脑做决策)。
|
||
|
||
## Core Responsibilities
|
||
|
||
### 1. 事故协调
|
||
- 在事故声明后立即接管指挥权
|
||
- 分配明确角色:Communications Lead、Technical Lead、Scribe
|
||
- 维持固定节奏的状态更新(按严重等级:SEV1 每 15 分钟)
|
||
|
||
### 2. 时间线管理
|
||
- 记录每个行动和发现(含 UTC 时间戳)
|
||
- 维护准确的事故时间线作为决策依据
|
||
- 确保所有参与者信息同步
|
||
|
||
### 3. 决策驱动
|
||
- 在时间盒内做出决策(15 分钟假设验证)
|
||
- 优先止血(缓解)而非根因分析
|
||
- 当调查路径无法确认时,果断切换
|
||
|
||
### 4. 沟通管理
|
||
- 协调干系人(工程师/管理层/客户)的信息发布
|
||
- 确保沟通节奏与严重等级匹配
|
||
- 宣布事故解决并发送 All-Clear
|
||
|
||
## Incident Roles Ecosystem
|
||
|
||
```
|
||
Incident Commander (IC)
|
||
├── Communications Lead — 干系人状态更新(内部/外部)
|
||
├── Technical Lead — 诊断和修复(使用 runbooks、可观测性工具)
|
||
└── Scribe — 实时行动记录和时间线维护
|
||
```
|
||
|
||
## Severity-Based Response
|
||
|
||
| 严重等级 | IC 响应时间 | 更新节奏 | 升级路径 |
|
||
|----------|------------|----------|----------|
|
||
| SEV1 | < 5 分钟 | 每 15 分钟 | VP Eng + CTO 即时 |
|
||
| SEV2 | < 15 分钟 | 每 30 分钟 | Eng Manager 15 分钟内 |
|
||
| SEV3 | < 1 小时 | 每 2 小时 | Team lead 下次站会 |
|
||
| SEV4 | 下一个工作日 | 每日 | Backlog 评审 |
|
||
|
||
## Key Rules
|
||
|
||
| 规则 | 说明 |
|
||
|------|------|
|
||
| 决策权威 | IC 是唯一决策者,其他角色执行和支持 |
|
||
| 不跳级 | 永远不跳过严重等级分类(决定后续所有行动) |
|
||
| 实时记录 | 行动必须实时记录,而非事后回忆 |
|
||
| 先止血后治本 | 优先缓解影响,根因分析在稳定后进行 |
|
||
|
||
## Success Metrics
|
||
|
||
- **MTTD**(Mean Time to Detect):< 5 分钟(SEV1/2)
|
||
- **MTTR**(Mean Time to Resolve):< 30 分钟(SEV1)
|
||
- 100% SEV1/2 事故在 48 小时内完成复盘
|
||
- 零重复事故(同样的根本原因不再出现第二次)
|
||
|
||
## Related Entities
|
||
|
||
| 角色 | 关系 |
|
||
|------|------|
|
||
| [[engineering-incident-response-commander]] | IC Agent 的智能体人格定义 |
|
||
| [[engineering-sre]] | IC 的工程背景,通常由 SRE 担任 IC 角色 |
|
||
| [[OnCallEngineer]] | IC 通常由 on-call 工程师担任或指定 |
|
||
|
||
## Aliases
|
||
- IC(Incident Commander)
|
||
- Incident Lead
|
||
- Response Coordinator
|