--- title: "Problem Management" type: concept tags: [itsm, incident-management, operations] date: 2025-03-01 --- ## Definition 问题管理(Problem Management)是[[ITSM]]的核心流程之一,专注于**识别和分析IT服务问题的根本原因**,防止同类事件重复发生。与事件管理(Incident Management)处理症状不同,问题管理处理的是根本原因。 ## Problem Management vs Incident Management | 维度 | 事件管理 | 问题管理 | |------|---------|---------| | 目标 | 快速恢复服务 | 消除根本原因 | | 处理 | 症状 | 根因 | | KPI | MTTR | 问题消除率 | | 时效 | 即时 | 中长期 | ## Problem Management Process ``` ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ Problem │ → │ Root Cause │ → │ Known Error │ │ Detection │ │ Analysis │ │ Document │ └──────────────┘ └──────────────┘ └──────────────┘ ↓ ↓ ↓ AI Anomaly ML-enhanced Known Error Detection RCA Process Database (KEDB) ``` ## Modern Problem Management (ITSM 2.0) 在[[ITSM 2.0]]中,问题管理由AI驱动: ### AI-Driven Features - **Anomaly Detection** — 自动识别异常模式 - **Predictive Analytics** — 预测潜在问题 - **ML-enhanced RCA** — 机器学习加速根因分析 - **Automated KEDB Updates** — 自动更新已知错误库 ## Key Metrics | 指标 | 描述 | |------|------| | Problem Resolution Rate | 问题解决率 | | Mean Time to Diagnose (MTTD) | 平均诊断时间 | | Recurring Incidents | 重复发生事件数 | | Known Error Accuracy | 已知错误准确率 | ## Related Concepts - [[ITSM]] — 父框架 - [[Incident-Management]] — 事件管理 - [[Root-Cause-Analysis]] — 根因分析 - [[AIOps]] — AI驱动的分析能力 - [[MTTD]] — 平均诊断时间 - [[Event-Correlation]] — 事件关联 ## Sources - [[understanding-complete-itsm]] — AI-driven Problem Management