Auto-sync: 2026-04-21 17:12

2026-04-21 17:12:45 +08:00
parent 914c8f6925
commit 0fe7ba237f
1888 changed files with 220 additions and 68174 deletions
--- a/wiki/sources/ctp-topic-30-managing-change.md
+++ b/wiki/sources/ctp-topic-30-managing-change.md
@@ -1,56 +0,0 @@
---
-title: "CTP Topic 30 Managing Change"
-type: source
-tags: [cloud-learning, change-management, SRE]
-date: 2026-04-14
---
-
-## Source File
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/10_OpenText-Series/ctp-topic-30-managing-change.md]]
-
-## Summary
- 核心主题：云转型项目中的变更管理流程，以及 SRE 团队在变更管理中的角色
- 问题域：IT 服务管理、变更管理流程、SRE 职责
- 方法/机制：三种变更类型（标准变更、正常变更、紧急变更）的分类和处理流程，SRE 团队与产品团队的协作模式
- 结论/价值：明确 SRE 角色定义和变更管理流程，确保云转型项目中各团队的有效协作
-
-## Key Claims
- SRE 团队的核心职责是通过软件工程思维方式解决运维问题，自动化重复性工作，提高系统可靠性和可测试性
- 变更分为三种类型：标准变更（预批准，无需 CAB）、正常变更（需 CAB 批准）、紧急变更（为缓解事故而立即执行）
- 事件是触发警报的低级别事件，事故是超出计划外的服务中断或服务质量下降，对客户影响较大
- SRE 团队与产品团队的协作分为三个阶段：构建和设置、早期上线支持（Early Live Support）、BAU（日常运营）
-
-## Key Quotes
-> "SRE 的核心在于自动化重复性工作，提高系统可靠性和可测试性" — Brendan Starnig
-
-> "标准变更应尽可能实现完全自动化，通过 IaC + CI/CD Pipeline" — Brendan Starnig
-
-> "事件的 CAPA（Corrective and Preventive Action）目的是从事故中提取根因并预防同类问题再次发生" — Brendan Starnig
-
-## Key Concepts
- [[SRE]]：站点可靠性工程，将软件工程方法应用于运维问题
- [[Change Management]]：变更管理，三种类型（标准变更、正常变更、紧急变更）
- [[SMACs]]：Service Management Automation X，当前使用的 ITSM 工具
- [[CAPA]]：Corrective and Preventive Action，纠正和预防措施，即 Post-mortem 回顾
- [[SLO]]：Service Level Objective，服务等级目标
- [[SLR]]：Service Level Requirement，服务等级需求
- [[Early Live Support]]：Build 与 BAU 之间的过渡阶段
-
-## Key Entities
- [[Brendan Starnig]]：SRE Function Lead, Platform Engineering，讲师
- [[SMACs Ticket]]：内部服务管理工单系统，用于 Ticket、Incident、Change 管理
-
-## Connections
- [[ctp-topic-17-active-directory-services-in-gruntwork-aws-lzs]] ← related_to ← [[SRE]]：AD 服务与 SRE 协作流程相关
- [[ctp-topic-28-aws-tag-validation-tool]] ← relates_to ← [[Standard Change]]：IaC 变更的 Tagging 标准属于 Standard Change 范畴
- [[ctp-topic-19-configuring-dns-within-aws-lzs]] ← relates_to ← [[SRE Support Model]]：DNS 配置与 SRE 支持模型的关系
-
-## Contradictions
- （暂无记录）
-
-## Action Items
- [ ] 评估现有变更流程，识别可自动化并转化为标准变更的环节
- [ ] 明确各团队与 SRE 团队在不同阶段的交互方式和责任范围
- [ ] 确保所有团队成员正确使用 PPM、SMACs 和 Octane 等工具
- [ ] 完善监控覆盖，确保所有关键服务和基础设施都得到充分监控
- [ ] 建立清晰的事件响应和升级流程