Update nexus wiki content

This commit is contained in:
2026-05-03 05:42:06 +08:00
parent 90f3811b83
commit 111bc65b7b
707 changed files with 32306 additions and 7289 deletions

View File

@@ -0,0 +1,78 @@
---
title: "Incident Commander (IC)"
type: entity
tags: [incident-management, reliability, roles]
last_updated: 2026-05-01
---
## Definition
事故指挥官Incident CommanderIC是生产事故响应中的核心协调角色——唯一决策者负责管理时间线、分配角色、驱动结构化决策。核心理念**"Single throat to yell at, single brain to decide"**(单一出口发号施令,单一大脑做决策)。
## Core Responsibilities
### 1. 事故协调
- 在事故声明后立即接管指挥权
- 分配明确角色Communications Lead、Technical Lead、Scribe
- 维持固定节奏的状态更新按严重等级SEV1 每 15 分钟)
### 2. 时间线管理
- 记录每个行动和发现(含 UTC 时间戳)
- 维护准确的事故时间线作为决策依据
- 确保所有参与者信息同步
### 3. 决策驱动
- 在时间盒内做出决策15 分钟假设验证)
- 优先止血(缓解)而非根因分析
- 当调查路径无法确认时,果断切换
### 4. 沟通管理
- 协调干系人(工程师/管理层/客户)的信息发布
- 确保沟通节奏与严重等级匹配
- 宣布事故解决并发送 All-Clear
## Incident Roles Ecosystem
```
Incident Commander (IC)
├── Communications Lead — 干系人状态更新(内部/外部)
├── Technical Lead — 诊断和修复(使用 runbooks、可观测性工具
└── Scribe — 实时行动记录和时间线维护
```
## Severity-Based Response
| 严重等级 | IC 响应时间 | 更新节奏 | 升级路径 |
|----------|------------|----------|----------|
| SEV1 | < 5 分钟 | 每 15 分钟 | VP Eng + CTO 即时 |
| SEV2 | < 15 分钟 | 每 30 分钟 | Eng Manager 15 分钟内 |
| SEV3 | < 1 小时 | 每 2 小时 | Team lead 下次站会 |
| SEV4 | 下一个工作日 | 每日 | Backlog 评审 |
## Key Rules
| 规则 | 说明 |
|------|------|
| 决策权威 | IC 是唯一决策者,其他角色执行和支持 |
| 不跳级 | 永远不跳过严重等级分类(决定后续所有行动) |
| 实时记录 | 行动必须实时记录,而非事后回忆 |
| 先止血后治本 | 优先缓解影响,根因分析在稳定后进行 |
## Success Metrics
- **MTTD**Mean Time to Detect< 5 分钟SEV1/2
- **MTTR**Mean Time to Resolve< 30 分钟SEV1
- 100% SEV1/2 事故在 48 小时内完成复盘
- 零重复事故(同样的根本原因不再出现第二次)
## Related Entities
| 角色 | 关系 |
|------|------|
| [[engineering-incident-response-commander]] | IC Agent 的智能体人格定义 |
| [[engineering-sre]] | IC 的工程背景,通常由 SRE 担任 IC 角色 |
| [[OnCallEngineer]] | IC 通常由 on-call 工程师担任或指定 |
## Aliases
- ICIncident Commander
- Incident Lead
- Response Coordinator