--- title: "CTP Topic 30 Managing Change" type: source tags: [cloud-learning, change-management, SRE] date: 2026-04-14 --- ## Source File - [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/10_OpenText-Series/ctp-topic-30-managing-change.md]] ## Summary - 核心主题:云转型项目中的变更管理流程,以及 SRE 团队在变更管理中的角色 - 问题域:IT 服务管理、变更管理流程、SRE 职责 - 方法/机制:三种变更类型(标准变更、正常变更、紧急变更)的分类和处理流程,SRE 团队与产品团队的协作模式 - 结论/价值:明确 SRE 角色定义和变更管理流程,确保云转型项目中各团队的有效协作 ## Key Claims - SRE 团队的核心职责是通过软件工程思维方式解决运维问题,自动化重复性工作,提高系统可靠性和可测试性 - 变更分为三种类型:标准变更(预批准,无需 CAB)、正常变更(需 CAB 批准)、紧急变更(为缓解事故而立即执行) - 事件是触发警报的低级别事件,事故是超出计划外的服务中断或服务质量下降,对客户影响较大 - SRE 团队与产品团队的协作分为三个阶段:构建和设置、早期上线支持(Early Live Support)、BAU(日常运营) ## Key Quotes > "SRE 的核心在于自动化重复性工作,提高系统可靠性和可测试性" — Brendan Starnig > "标准变更应尽可能实现完全自动化,通过 IaC + CI/CD Pipeline" — Brendan Starnig > "事件的 CAPA(Corrective and Preventive Action)目的是从事故中提取根因并预防同类问题再次发生" — Brendan Starnig ## Key Concepts - [[SRE]]:站点可靠性工程,将软件工程方法应用于运维问题 - [[Change Management]]:变更管理,三种类型(标准变更、正常变更、紧急变更) - [[SMACs]]:Service Management Automation X,当前使用的 ITSM 工具 - [[CAPA]]:Corrective and Preventive Action,纠正和预防措施,即 Post-mortem 回顾 - [[SLO]]:Service Level Objective,服务等级目标 - [[SLR]]:Service Level Requirement,服务等级需求 - [[Early Live Support]]:Build 与 BAU 之间的过渡阶段 ## Key Entities - [[Brendan Starnig]]:SRE Function Lead, Platform Engineering,讲师 - [[SMACs Ticket]]:内部服务管理工单系统,用于 Ticket、Incident、Change 管理 ## Connections - [[ctp-topic-17-active-directory-services-in-gruntwork-aws-lzs]] ← related_to ← [[SRE]]:AD 服务与 SRE 协作流程相关 - [[ctp-topic-28-aws-tag-validation-tool]] ← relates_to ← [[Standard Change]]:IaC 变更的 Tagging 标准属于 Standard Change 范畴 - [[ctp-topic-19-configuring-dns-within-aws-lzs]] ← relates_to ← [[SRE Support Model]]:DNS 配置与 SRE 支持模型的关系 ## Contradictions - (暂无记录) ## Action Items - [ ] 评估现有变更流程,识别可自动化并转化为标准变更的环节 - [ ] 明确各团队与 SRE 团队在不同阶段的交互方式和责任范围 - [ ] 确保所有团队成员正确使用 PPM、SMACs 和 Octane 等工具 - [ ] 完善监控覆盖,确保所有关键服务和基础设施都得到充分监控 - [ ] 建立清晰的事件响应和升级流程