Files
nexus/wiki/sources/ctp-topic-30-managing-change.md
2026-04-24 04:02:45 +08:00

63 lines
4.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "CTP Topic 30 Managing Change"
type: source
tags:
- Change-Management
- SRE
- ITSM
- DevOps
- Cloud-Transformation
date: 2026-04-14
---
## Source File
- [[Cloud & DevOps/Public-Cloud-Learning-Sessions/10_OpenText-Series/ctp-topic-30-managing-change]]
## Summary用中文描述
- 核心主题:云转型项目中的变更管理流程,以及 SRE 团队在不同阶段与产品团队的协作模式
- 问题域企业云迁移过程中的变更审批效率、自动化程度不足、SRE 与产品团队协作边界不清
- 方法/机制:区分标准变更/正常变更/紧急变更三类流程引入自动化IaC+CI/CD将变更转为标准变更SRE 团队在构建/上线支持/BAU 三阶段提供差异化支持
- 结论/价值通过自动化减少人工审批通过明确流程减少变更风险SRE 团队是云转型中连接运维与产品的关键桥梁
## Key Claims用中文描述
- SRE 团队通过软件工程思维解决运维问题,核心在于自动化重复性工作,提高系统可靠性和可测试性
- 标准变更Standard Change应实现完全自动化IaC + CI/CD Pipeline无需 CAB 审批,是理想状态
- 正常变更Normal Change需 CAB 批准和变更窗口,目标是通过自动化逐步将其归入标准变更
- 紧急变更Emergency Change需立即执行以缓解事故事后通过 CAPA/Post-mortem 修复根因
- SRE 团队在三个阶段(构建/早期上线支持/BAU与产品团队以不同方式协作
- Self-Healing基于 ML 的自动化监控系统是未来演进方向各产品组分享实践SRE 协助落地
## Key Quotes
> "SRE 用软件工程思维解决运维问题,追求可靠性、可测试性、可重复性,核心是打破运维与产品的壁垒。" — Brendan Starnig
> "Standard Change 应完全自动化IaC + CI/CD Pipeline无需 CAB 审批。" — Brendan Starnig
> "Emergency Change 事后通过 CAPA/Post-mortem 修复根因,而非永久性补丁。" — Brendan Starnig
## Key Concepts
- [[SRE]]Site Reliability Engineering站点可靠性工程通过软件工程思维解决运维问题
- [[Standard-Change]]:标准变更,预批准变更,无需 CAB 审批应完全自动化IaC + CI/CD Pipeline
- [[Normal-Change]]:正常变更,有风险/影响,需 CAB 审批和变更窗口,理想状态是逐步归入 Standard Change
- [[Emergency-Change]]:紧急变更,为缓解事故需立即执行的变更,事后通过 CAPA/Post-mortem 修复根因
- [[CAPA]]Corrective and Preventive Action即 Post-mortem 回顾,从事故中提取根因并预防同类问题
- [[SLO]]Service Level Objective服务等级目标用于定义监控指标并向上汇总至 KPI
- [[SLR]]Service Level Requirement服务等级需求与 SLO 配套使用
- [[Early-Live-Support]]Build 与 BAU 之间的过渡阶段,需完成 Go-Live Checklist监控覆盖、支持模型、事件响应流程
- [[Self-Healing]]:通过机器学习驱动的自动化监控系统,基于告警趋势自动决策和缓解问题
## Key Entities
- [[Brendan-Starnig]]SRE Function Lead, Platform Engineering本次会议主讲人
- [[SMACs]]Service Management Automation X当前的 ITSM 工具,用于 Ticket、Incident、Change 管理
- [[Vinaya]]:内部成员,提议各产品组分享 Self-healing 实践SRE 将协助落地
## Connections
- [[ctp-topic-1-gruntwork-landing-zone-architecture]] ← context_for ← [[ctp-topic-30-managing-change]]
- [[ctp-topic-17-active-directory-services-in-gruntwork-aws-lzs]] ← related_to ← [[ctp-topic-30-managing-change]]
- [[ctp-topic-28-aws-tag-validation-tool]] ← extends ← [[ctp-topic-30-managing-change]]IaC 变更的 Tagging 标准属于 Standard Change 范畴)
- [[ctp-topic-19-configuring-dns-within-aws-lzs]] ← related_to ← [[ctp-topic-30-managing-change]]
## Contradictions
- 与 [[ctp-topic-53-why-bother-with-cloud]] 的关系:
- 冲突点:是否应迁移至云端
- 当前观点Topic 30接受云转型聚焦如何在转型中有效管理变更
- 对方观点Topic 53质疑云转型的必要性
- 说明两者处于不同讨论层面Topic 53 质疑迁移决策Topic 30 假设迁移决策已做出,聚焦执行层面的变更管理