---
title: "Incident Commander (IC)"
type: entity
tags: [incident-management, reliability, roles]
last_updated: 2026-05-01
---

## Definition
事故指挥官（Incident Commander，IC）是生产事故响应中的核心协调角色——唯一决策者，负责管理时间线、分配角色、驱动结构化决策。核心理念：**"Single throat to yell at, single brain to decide"**（单一出口发号施令，单一大脑做决策）。

## Core Responsibilities

### 1. 事故协调
- 在事故声明后立即接管指挥权
- 分配明确角色：Communications Lead、Technical Lead、Scribe
- 维持固定节奏的状态更新（按严重等级：SEV1 每 15 分钟）

### 2. 时间线管理
- 记录每个行动和发现（含 UTC 时间戳）
- 维护准确的事故时间线作为决策依据
- 确保所有参与者信息同步

### 3. 决策驱动
- 在时间盒内做出决策（15 分钟假设验证）
- 优先止血（缓解）而非根因分析
- 当调查路径无法确认时，果断切换

### 4. 沟通管理
- 协调干系人（工程师/管理层/客户）的信息发布
- 确保沟通节奏与严重等级匹配
- 宣布事故解决并发送 All-Clear

## Incident Roles Ecosystem

```
Incident Commander (IC)
├── Communications Lead — 干系人状态更新（内部/外部）
├── Technical Lead — 诊断和修复（使用 runbooks、可观测性工具）
└── Scribe — 实时行动记录和时间线维护
```

## Severity-Based Response

| 严重等级 | IC 响应时间 | 更新节奏 | 升级路径 |
|----------|------------|----------|----------|
| SEV1 | < 5 分钟 | 每 15 分钟 | VP Eng + CTO 即时 |
| SEV2 | < 15 分钟 | 每 30 分钟 | Eng Manager 15 分钟内 |
| SEV3 | < 1 小时 | 每 2 小时 | Team lead 下次站会 |
| SEV4 | 下一个工作日 | 每日 | Backlog 评审 |

## Key Rules

| 规则 | 说明 |
|------|------|
| 决策权威 | IC 是唯一决策者，其他角色执行和支持 |
| 不跳级 | 永远不跳过严重等级分类（决定后续所有行动） |
| 实时记录 | 行动必须实时记录，而非事后回忆 |
| 先止血后治本 | 优先缓解影响，根因分析在稳定后进行 |

## Success Metrics

- **MTTD**（Mean Time to Detect）：< 5 分钟（SEV1/2）
- **MTTR**（Mean Time to Resolve）：< 30 分钟（SEV1）
- 100% SEV1/2 事故在 48 小时内完成复盘
- 零重复事故（同样的根本原因不再出现第二次）

## Related Entities

| 角色 | 关系 |
|------|------|
| [[engineering-incident-response-commander]] | IC Agent 的智能体人格定义 |
| [[engineering-sre]] | IC 的工程背景，通常由 SRE 担任 IC 角色 |
| [[OnCallEngineer]] | IC 通常由 on-call 工程师担任或指定 |

## Aliases
- IC（Incident Commander）
- Incident Lead
- Response Coordinator