Auto-sync

2026-04-15 16:33:26 +08:00
parent d3e7fcf81f
commit 22c7a6e4d9
80 changed files with 1473 additions and 240 deletions
--- a/SRE/10_OpenText-Series/ctp-topic-30-managing-change.md
+++ b/SRE/10_OpenText-Series/ctp-topic-30-managing-change.md
@@ -28,23 +28,41 @@ status: summarized

 ## 摘要

-> 本次分享是 SRE 职能负责人 Brendan Starnig 主持的"变更管理"专题，目标是统一 Cloud Transformation Program 中各团队对变更流程的认知，厘清 SRE 与支持团队的协作边界。核心内容包括：
->
-> **SRE 本质**：SRE 是用软件工程思维解决运维问题，任何重复性工作都应自动化，核心职责涵盖可用性、延迟、性能、变更管理、监控、应急响应、容量规划。SRE 与 DevOps 的关系是"SRE 是 DevOps 的特定实现并有所扩展"。
->
-> **变更分类**：Standard Change（预批准、全自动化）、Normal Change（需 CAB 审批、需变更窗口）、Emergency Change（快速响应以缓解 Incident）、CAPA（Post-mortem 回顾）。目标是尽可能将 Normal Change 归入 Standard Change 池。
->
-> **Cloud Transformation 三阶段**：Build & Setup（创建 Landing Zone 账户，最佳实践是 IaC + 不可变基础设施）→ Early Live Support（交接检查清单：SLO/SLR 定义、监控覆盖率、支持模型）→ BAU（进入正式变更管理流程）。
->
-> **事件与 Incident**：通过 SMACs + Teams Channel 接收告警，区分 Informational、Exception、Problem Management、Incident Management 四级响应。Incident 按 Severity 分级：Severity 1/2 为 Major Incident，需紧急协调；Severity 3/4 为 Degraded Service。
->
-> **服务请求**：通过 SMACs Service Request Portal → Public Cloud Operation Services 提交流程（新账户开通、权限申请等）。当前支持渠道：SRE Support Teams Channel 或直接联系 Brendan。
->
-> **下一步重点**：定义 SLR/SLO 体系并向产品团队定期汇报；推进 Change Record 自动化；探索 Self-healing 与机器学习驱动的监控自动化。
+本次会议由 Brendan Starnig 主讲，主要讨论了在云转型项目中如何管理变更，特别是在与 SRE（站点可靠性工程）团队和其他支持团队的交互方面。会议旨在提高大家对 SRE 角色、服务定义以及变更管理流程的认识，并确保所有参与者对相关流程和工具（如 PPM、SMACs 和 Octane）有统一的理解。

+会议涵盖了 SRE 的核心职责，强调了其在自动化重复性工作、提高系统可靠性和可测试性方面的作用。同时，会议还区分了不同类型的变更（标准变更、正常变更和紧急变更），并阐述了它们各自的处理流程。此外，会议还讨论了事件与事故的区别，以及在 SMACs 中如何区分和处理它们。
+
+最后，会议强调了在云转型项目中，SRE 团队与产品团队之间的协作，以及在不同阶段（构建和设置、早期上线支持和 BAU）如何与 SRE 团队进行交互。会议旨在确保所有参与者都清楚地了解变更管理流程，以及如何有效地利用 SRE 团队来支持云转型项目。

 ---

+## 关键概念
+
+- **SRE (站点可靠性工程)**: 通过软件工程的思维方式解决运维问题，核心在于自动化重复性工作，提高系统可靠性和可测试性。
+- **标准变更**: 预先批准的变更，不需要变更咨询委员会（CAB）的批准，应尽可能实现完全自动化。
+- **正常变更**: 包含一定风险或影响的变更，需要 CAB 批准，并可能需要跨团队协调。
+- **紧急变更**: 为了缓解事故并尽快恢复服务到期望状态而需要立即执行的变更。
+- **事件 vs. 事故**: 在 SMACs 中，事件是触发警报的低级别事件，而事故是超出计划外的服务中断或服务质量下降，对客户的影响较大。
+
+---
+
+## 行动项
+
+- [ ] 评估现有变更流程，识别可自动化并转化为标准变更的环节。
+- [ ] 明确各团队与 SRE 团队在不同阶段（构建、上线支持、BAU）的交互方式和责任范围。
+- [ ] 确保所有团队成员都了解并正确使用 PPM、SMACs 和 Octane 等工具进行变更、事件和任务管理。
+- [ ] 完善监控覆盖，确保所有关键服务和基础设施都得到充分监控，并定义明确的 SLO 和 SLI。
+- [ ] 建立清晰的事件响应和升级流程，确保问题能够及时得到解决。
+
+---
+
+## 相关视频
+
+> [!info]+ 交叉引用
+> [[ctp-topic-XX-incident-management.md]] — 讨论了事件管理流程，与本次会议中关于事件和事故的区分相关。
+> [[ctp-topic-XX-sre-practices.md]] — 深入探讨了 SRE 的实践方法，与本次会议中 SRE 的角色和职责相关。
+
+
 ## 关键概念

 - **SRE (Site Reliability Engineering)**: 用软件工程思维解决运维问题，追求可靠性、可测试性、可重复性，核心是打破运维与产品的壁垒