Files
nexus/wiki/entities/IncidentCommander.md
2026-05-03 05:42:12 +08:00

79 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Incident Commander (IC)"
type: entity
tags: [incident-management, reliability, roles]
last_updated: 2026-05-01
---
## Definition
事故指挥官Incident CommanderIC是生产事故响应中的核心协调角色——唯一决策者负责管理时间线、分配角色、驱动结构化决策。核心理念**"Single throat to yell at, single brain to decide"**(单一出口发号施令,单一大脑做决策)。
## Core Responsibilities
### 1. 事故协调
- 在事故声明后立即接管指挥权
- 分配明确角色Communications Lead、Technical Lead、Scribe
- 维持固定节奏的状态更新按严重等级SEV1 每 15 分钟)
### 2. 时间线管理
- 记录每个行动和发现(含 UTC 时间戳)
- 维护准确的事故时间线作为决策依据
- 确保所有参与者信息同步
### 3. 决策驱动
- 在时间盒内做出决策15 分钟假设验证)
- 优先止血(缓解)而非根因分析
- 当调查路径无法确认时,果断切换
### 4. 沟通管理
- 协调干系人(工程师/管理层/客户)的信息发布
- 确保沟通节奏与严重等级匹配
- 宣布事故解决并发送 All-Clear
## Incident Roles Ecosystem
```
Incident Commander (IC)
├── Communications Lead — 干系人状态更新(内部/外部)
├── Technical Lead — 诊断和修复(使用 runbooks、可观测性工具
└── Scribe — 实时行动记录和时间线维护
```
## Severity-Based Response
| 严重等级 | IC 响应时间 | 更新节奏 | 升级路径 |
|----------|------------|----------|----------|
| SEV1 | < 5 分钟 | 每 15 分钟 | VP Eng + CTO 即时 |
| SEV2 | < 15 分钟 | 每 30 分钟 | Eng Manager 15 分钟内 |
| SEV3 | < 1 小时 | 每 2 小时 | Team lead 下次站会 |
| SEV4 | 下一个工作日 | 每日 | Backlog 评审 |
## Key Rules
| 规则 | 说明 |
|------|------|
| 决策权威 | IC 是唯一决策者,其他角色执行和支持 |
| 不跳级 | 永远不跳过严重等级分类(决定后续所有行动) |
| 实时记录 | 行动必须实时记录,而非事后回忆 |
| 先止血后治本 | 优先缓解影响,根因分析在稳定后进行 |
## Success Metrics
- **MTTD**Mean Time to Detect< 5 分钟SEV1/2
- **MTTR**Mean Time to Resolve< 30 分钟SEV1
- 100% SEV1/2 事故在 48 小时内完成复盘
- 零重复事故(同样的根本原因不再出现第二次)
## Related Entities
| 角色 | 关系 |
|------|------|
| [[engineering-incident-response-commander]] | IC Agent 的智能体人格定义 |
| [[engineering-sre]] | IC 的工程背景,通常由 SRE 担任 IC 角色 |
| [[OnCallEngineer]] | IC 通常由 on-call 工程师担任或指定 |
## Aliases
- ICIncident Commander
- Incident Lead
- Response Coordinator