Files
nexus/wiki/sources/engineering-incident-response-commander.md
2026-05-03 05:42:12 +08:00

63 lines
4.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Incident Response Commander Agent Personality"
type: source
tags: []
date: 2026-05-01
---
## Source File
- [[Agent/agency-agents/engineering/engineering-incident-response-commander]]
## Summary用中文描述
- 核心主题面向可靠工程的智能体AI Agent—— Incident Response Commander事故响应指挥官将生产事故混乱转化为结构化解决
- 问题域:生产环境事故管理、值班流程设计、事后复盘、可靠性工程文化
- 方法/机制SEV1SEV4 严重等级分类框架、角色分工IC/Comms/Tech Lead/Scribe、无责文化blameless、SLO/SLI/SLA 体系、混沌工程、5 Whys 根因分析
- 结论/价值:为可靠工程组织提供完整的事故响应 SOP降低 MTTD/MTTR保护 on-call 工程师心理健康
## Key Claims用中文描述
- 事故指挥官IC通过固定角色分工和固定更新节奏将混乱转为结构化响应
- 无责文化blameless culture确保工程师敢于上报问题而非隐瞒是可靠性组织的基础
- SLO 必须有约束力:错误预算耗尽时,功能开发必须暂停,转向可靠性工作
- Runbook 每季度必须测试一次——未经测试的 runbook 是虚假的安全感
- On-call 工程师必须有应急处置权,无需多级审批链
- 每次事故必须在 48 小时内生成时间线、影响评估和后续行动项
## Key Quotes
> "Never frame findings as 'X person caused the outage' — frame as 'the system allowed this failure mode'" — 无责文化的核心原则:归因于系统缺陷,而非个人错误
> "The gap is that we have no integration test for config validation — that's the systemic issue to fix" — 复盘时聚焦系统性缺口,而非追责
> "A blameless post-mortem without follow-through is just a meeting" — 事后复盘若无跟进,只是浪费时间
> "Chaos multiplies without coordination" — 无协调则混乱倍增
## Key Concepts
- [[BlamelessPostMortem]]:无责复盘——聚焦系统性根因而非个人错误,保护心理安全
- [[ErrorBudget]]错误预算——SLO 未达标时的容忍空间;低于 25% 时全员投入可靠性工作
- [[ServiceLevelObjective]]SLO服务等级目标——有约束力的可靠性承诺而非纸面指标
- [[ServiceLevelIndicator]]SLI服务等级指标——可测量的具体指标如错误率、延迟
- [[FiveWhys]]5问法——通过层层追问找到系统性根本原因
- [[FaultTreeAnalysis]]:故障树分析——结构化根因分析工具
- [[ChaosEngineering]]:混沌工程——通过受控故障注入验证系统韧性
- [[GameDay]]Game Day——跨团队模拟多服务级联故障演练
- [[MeanTimeToDetect]]MTTD从故障发生到检测的平均时间目标 < 5 分钟SEV1/2
- [[MeanTimeToResolve]]MTTR从检测到恢复的平均时间目标 < 30 分钟SEV1
- [[IncidentSeverityMatrix]]SEV1SEV4 严重等级矩阵,定义响应时间、升级路径和沟通节奏
## Key Entities
- [[IncidentCommander]]IC事故指挥官——唯一决策者负责时间线管理和角色协调
- [[CommunicationsLead]]:沟通负责人——按严重等级节奏向干系人发送状态更新
- [[TechnicalLead]]:技术负责人——主导诊断,使用 runbook 和可观测性工具
- [[Scribe]]:记录员——实时记录每个操作和发现,含时间戳
- [[OnCallEngineer]]:值班工程师——负责检测和初步响应
- [[SiteReliabilityEngineering]]SRE网站可靠性工程——本 agent 的工程领域背景
## Connections
- [[SiteReliabilityEngineering]] ← 依赖 → [[ErrorBudget]]
- [[BlamelessPostMortem]] ← 依赖 → [[FiveWhys]]
- [[IncidentSeverityMatrix]] ← 支撑 → [[IncidentCommander]]
- [[ChaosEngineering]] ← 验证 → [[GameDay]]
- [[ServiceLevelObjective]] ← 包含 → [[ServiceLevelIndicator]]
- [[MeanTimeToDetect]] ← 度量 → [[OnCallEngineer]]
- [[MeanTimeToResolve]] ← 度量 → [[IncidentCommander]]
## Contradictions
- (暂无检测到冲突页面)