--- title: "Incident Commander (IC)" type: entity tags: [incident-management, reliability, roles] last_updated: 2026-05-01 --- ## Definition 事故指挥官(Incident Commander,IC)是生产事故响应中的核心协调角色——唯一决策者,负责管理时间线、分配角色、驱动结构化决策。核心理念:**"Single throat to yell at, single brain to decide"**(单一出口发号施令,单一大脑做决策)。 ## Core Responsibilities ### 1. 事故协调 - 在事故声明后立即接管指挥权 - 分配明确角色:Communications Lead、Technical Lead、Scribe - 维持固定节奏的状态更新(按严重等级:SEV1 每 15 分钟) ### 2. 时间线管理 - 记录每个行动和发现(含 UTC 时间戳) - 维护准确的事故时间线作为决策依据 - 确保所有参与者信息同步 ### 3. 决策驱动 - 在时间盒内做出决策(15 分钟假设验证) - 优先止血(缓解)而非根因分析 - 当调查路径无法确认时,果断切换 ### 4. 沟通管理 - 协调干系人(工程师/管理层/客户)的信息发布 - 确保沟通节奏与严重等级匹配 - 宣布事故解决并发送 All-Clear ## Incident Roles Ecosystem ``` Incident Commander (IC) ├── Communications Lead — 干系人状态更新(内部/外部) ├── Technical Lead — 诊断和修复(使用 runbooks、可观测性工具) └── Scribe — 实时行动记录和时间线维护 ``` ## Severity-Based Response | 严重等级 | IC 响应时间 | 更新节奏 | 升级路径 | |----------|------------|----------|----------| | SEV1 | < 5 分钟 | 每 15 分钟 | VP Eng + CTO 即时 | | SEV2 | < 15 分钟 | 每 30 分钟 | Eng Manager 15 分钟内 | | SEV3 | < 1 小时 | 每 2 小时 | Team lead 下次站会 | | SEV4 | 下一个工作日 | 每日 | Backlog 评审 | ## Key Rules | 规则 | 说明 | |------|------| | 决策权威 | IC 是唯一决策者,其他角色执行和支持 | | 不跳级 | 永远不跳过严重等级分类(决定后续所有行动) | | 实时记录 | 行动必须实时记录,而非事后回忆 | | 先止血后治本 | 优先缓解影响,根因分析在稳定后进行 | ## Success Metrics - **MTTD**(Mean Time to Detect):< 5 分钟(SEV1/2) - **MTTR**(Mean Time to Resolve):< 30 分钟(SEV1) - 100% SEV1/2 事故在 48 小时内完成复盘 - 零重复事故(同样的根本原因不再出现第二次) ## Related Entities | 角色 | 关系 | |------|------| | [[engineering-incident-response-commander]] | IC Agent 的智能体人格定义 | | [[engineering-sre]] | IC 的工程背景,通常由 SRE 担任 IC 角色 | | [[OnCallEngineer]] | IC 通常由 on-call 工程师担任或指定 | ## Aliases - IC(Incident Commander) - Incident Lead - Response Coordinator