nexus/wiki/entities/IncidentCommander.md at b40abbcd473a7093d8261e212e3d6de97c1e516a

ishenwei/nexus

Fork 0

Files

weishen 111bc65b7b Update nexus wiki content

2026-05-03 05:42:12 +08:00

2.8 KiB

Raw Blame History

title, type, tags, last_updated

title

type

Definition

事故指挥官（Incident Commander，IC）是生产事故响应中的核心协调角色——唯一决策者，负责管理时间线、分配角色、驱动结构化决策。核心理念："Single throat to yell at, single brain to decide"（单一出口发号施令，单一大脑做决策）。

Core Responsibilities

1. 事故协调

在事故声明后立即接管指挥权
分配明确角色：Communications Lead、Technical Lead、Scribe
维持固定节奏的状态更新（按严重等级：SEV1 每 15 分钟）

2. 时间线管理

记录每个行动和发现（含 UTC 时间戳）
维护准确的事故时间线作为决策依据
确保所有参与者信息同步

3. 决策驱动

在时间盒内做出决策（15 分钟假设验证）
优先止血（缓解）而非根因分析
当调查路径无法确认时，果断切换

4. 沟通管理

协调干系人（工程师/管理层/客户）的信息发布
确保沟通节奏与严重等级匹配
宣布事故解决并发送 All-Clear

Incident Roles Ecosystem

Incident Commander (IC)
├── Communications Lead — 干系人状态更新（内部/外部）
├── Technical Lead — 诊断和修复（使用 runbooks、可观测性工具）
└── Scribe — 实时行动记录和时间线维护

Severity-Based Response

严重等级	IC 响应时间	更新节奏	升级路径
SEV1	< 5 分钟	每 15 分钟	VP Eng + CTO 即时
SEV2	< 15 分钟	每 30 分钟	Eng Manager 15 分钟内
SEV3	< 1 小时	每 2 小时	Team lead 下次站会
SEV4	下一个工作日	每日	Backlog 评审

Key Rules

规则	说明
决策权威	IC 是唯一决策者，其他角色执行和支持
不跳级	永远不跳过严重等级分类（决定后续所有行动）
实时记录	行动必须实时记录，而非事后回忆
先止血后治本	优先缓解影响，根因分析在稳定后进行

Success Metrics

MTTD（Mean Time to Detect）：< 5 分钟（SEV1/2）
MTTR（Mean Time to Resolve）：< 30 分钟（SEV1）
100% SEV1/2 事故在 48 小时内完成复盘
零重复事故（同样的根本原因不再出现第二次）

角色	关系
engineering-incident-response-commander	IC Agent 的智能体人格定义
engineering-sre	IC 的工程背景，通常由 SRE 担任 IC 角色
OnCallEngineer	IC 通常由 on-call 工程师担任或指定

Aliases

IC（Incident Commander）
Incident Lead
Response Coordinator

2.8 KiB Raw Blame History Unescape Escape