Files
nexus/knowledgebase/DevOps & SRE/10_OpenText-Series/ctp-topic-30-managing-change.md

102 lines
5.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "CTP Topic 30 Managing change"
type: cloud-learning
source-type: video
category: "DevOps & SRE/10_OpenText-Series"
tags:
- Change-Management
- SRE
- CTP
date-added: 2026-04-14
video-source: "nas:///volume2/work/Public Cloud Learning Sessions/CTP _ Topic 30_ Managing change.mp4"
audio-source: "/volume2/work/Public Cloud Learning Sessions/CTP _ Topic 30_ Managing change.mp3"
transcript-source: "/volume2/work/Public Cloud Learning Sessions/CTP _ Topic 30_ Managing change.txt"
status: summarized (Gemini 摘要)
---
# CTP Topic 30 Managing change
**Source:** NAS `/volume2/work/Public Cloud Learning Sessions/CTP _ Topic 30_ Managing change.mp4`
**Type:** VIDEO | **Category:** 10_OpenText-Series
**Status:** ✅ 已完成Gemini 摘要)
**讲者:** Brendan Starnig (SRE Function Lead, Platform Engineering)
---
## 摘要
本次会议由 Brendan Starnig 主讲,主要讨论了在云转型项目中如何管理变更,特别是在与 SRE站点可靠性工程团队和其他支持团队的交互方面。会议旨在提高大家对 SRE 角色、服务定义以及变更管理流程的认识,并确保所有参与者对相关流程和工具(如 PPM、SMACs 和 Octane有统一的理解。
会议涵盖了 SRE 的核心职责,强调了其在自动化重复性工作、提高系统可靠性和可测试性方面的作用。同时,会议还区分了不同类型的变更(标准变更、正常变更和紧急变更),并阐述了它们各自的处理流程。此外,会议还讨论了事件与事故的区别,以及在 SMACs 中如何区分和处理它们。
最后会议强调了在云转型项目中SRE 团队与产品团队之间的协作,以及在不同阶段(构建和设置、早期上线支持和 BAU如何与 SRE 团队进行交互。会议旨在确保所有参与者都清楚地了解变更管理流程,以及如何有效地利用 SRE 团队来支持云转型项目。
---
## 关键概念
- **SRE (站点可靠性工程)**: 通过软件工程的思维方式解决运维问题,核心在于自动化重复性工作,提高系统可靠性和可测试性。
- **标准变更**: 预先批准的变更不需要变更咨询委员会CAB的批准应尽可能实现完全自动化。
- **正常变更**: 包含一定风险或影响的变更,需要 CAB 批准,并可能需要跨团队协调。
- **紧急变更**: 为了缓解事故并尽快恢复服务到期望状态而需要立即执行的变更。
- **事件 vs. 事故**: 在 SMACs 中,事件是触发警报的低级别事件,而事故是超出计划外的服务中断或服务质量下降,对客户的影响较大。
---
## 行动项
- [ ] 评估现有变更流程,识别可自动化并转化为标准变更的环节。
- [ ] 明确各团队与 SRE 团队在不同阶段构建、上线支持、BAU的交互方式和责任范围。
- [ ] 确保所有团队成员都了解并正确使用 PPM、SMACs 和 Octane 等工具进行变更、事件和任务管理。
- [ ] 完善监控覆盖,确保所有关键服务和基础设施都得到充分监控,并定义明确的 SLO 和 SLI。
- [ ] 建立清晰的事件响应和升级流程,确保问题能够及时得到解决。
---
## 相关视频
> [!info]+ 交叉引用
> [[ctp-topic-XX-incident-management.md]] — 讨论了事件管理流程,与本次会议中关于事件和事故的区分相关。
> [[ctp-topic-XX-sre-practices.md]] — 深入探讨了 SRE 的实践方法,与本次会议中 SRE 的角色和职责相关。
## 关键概念
- **SRE (Site Reliability Engineering)**: 用软件工程思维解决运维问题,追求可靠性、可测试性、可重复性,核心是打破运维与产品的壁垒
- **Standard Change**: 预批准变更,无需 CAB应完全自动化IaC + CI/CD Pipeline
- **Normal Change**: 有风险/影响,需 CAB 审批和变更窗口,理想状态是尽可能归入 Standard Change
- **Emergency Change**: 需立即执行以缓解 Incident事后通过 CAPA/Post-mortem 修复根因
- **CAPA (Corrective and Preventive Action)**: 即 Post-mortem 回顾,目的是从 Incident 中提取根因并预防同类问题再次发生
- **Landing Zone (Gruntwork)**: Micro Focus 新一代云基础设施架构,取代经典 On-premise Data Centers
- **SLO/SLR (Service Level Objective/Requirement)**: 服务等级目标和需求,用于定义监控指标并向上汇总至 KPI
- **Early Live Support**: Build 与 BAU 之间的过渡阶段,需完成 Go-Live Checklist监控覆盖、支持模型、事件响应流程
- **SMACs**: 当前使用的 ITSM 工具Service Management Automation X用于 Ticket、Incident、Change 管理
- **Self-Healing**: 通过机器学习驱动的自动化监控系统,基于告警趋势自动决策和缓解问题(目前处于探索阶段)
---
## 行动项
- [ ] SRE 团队正与产品团队协作定义 SLR/SLO 体系,目标向产品团队做周/双周/月度指标汇报
- [ ] 推进 Change RecordCR自动化实现通过 CI/CD Pipeline 自动创建和关闭 CR
- [ ] 制定统一的账户命名规范(当前 R&D/Labs、Staging、PQM、Production 等命名混乱)
- [ ] 完善 On-call ScheduleSRE Support Channel并与 Service Desk 集成
- [ ] 探索 Self-healing 能力Vinaya 提议各产品组分享现有实践SRE 将协助在监控产品中落地
---
## 相关视频
> [!info]+ 交叉引用
> [[ctp-topic-01-gruntwork-landing-zone-architecture.md]] — Gruntwork Landing Zone 基础架构(本次分享的上下文)
> [[ctp-topic-19-configuring-dns-within-aws-lzs.md]] — DNS 配置与 SRE 支持模型的关系
> [[ctp-topic-17-active-directory-services-in-gruntwork-aws-lzs.md]] — AD Services 与 SRE 协作流程
> [[ctp-topic-28-aws-tag-validation-tool.md]] — IaC 变更的 Tagging 标准(属于 Standard Change 范畴)
---
*最后更新: 2026-04-15*