Files
nexus/wiki/sources/ctp-topic-30-managing-change.md
2026-04-19 06:32:15 +08:00

3.2 KiB
Raw Blame History

title, type, tags, date
title type tags date
CTP Topic 30 Managing Change source
cloud-learning
change-management
SRE
2026-04-14

Source File

Summary

  • 核心主题:云转型项目中的变更管理流程,以及 SRE 团队在变更管理中的角色
  • 问题域IT 服务管理、变更管理流程、SRE 职责
  • 方法/机制三种变更类型标准变更、正常变更、紧急变更的分类和处理流程SRE 团队与产品团队的协作模式
  • 结论/价值:明确 SRE 角色定义和变更管理流程,确保云转型项目中各团队的有效协作

Key Claims

  • SRE 团队的核心职责是通过软件工程思维方式解决运维问题,自动化重复性工作,提高系统可靠性和可测试性
  • 变更分为三种类型:标准变更(预批准,无需 CAB、正常变更需 CAB 批准)、紧急变更(为缓解事故而立即执行)
  • 事件是触发警报的低级别事件,事故是超出计划外的服务中断或服务质量下降,对客户影响较大
  • SRE 团队与产品团队的协作分为三个阶段构建和设置、早期上线支持Early Live Support、BAU日常运营

Key Quotes

"SRE 的核心在于自动化重复性工作,提高系统可靠性和可测试性" — Brendan Starnig

"标准变更应尽可能实现完全自动化,通过 IaC + CI/CD Pipeline" — Brendan Starnig

"事件的 CAPACorrective and Preventive Action目的是从事故中提取根因并预防同类问题再次发生" — Brendan Starnig

Key Concepts

  • SRE:站点可靠性工程,将软件工程方法应用于运维问题
  • Change Management:变更管理,三种类型(标准变更、正常变更、紧急变更)
  • SMACsService Management Automation X当前使用的 ITSM 工具
  • CAPACorrective and Preventive Action纠正和预防措施即 Post-mortem 回顾
  • SLOService Level Objective服务等级目标
  • SLRService Level Requirement服务等级需求
  • Early Live SupportBuild 与 BAU 之间的过渡阶段

Key Entities

  • Brendan StarnigSRE Function Lead, Platform Engineering讲师
  • SMACs Ticket:内部服务管理工单系统,用于 Ticket、Incident、Change 管理

Connections

Contradictions

  • (暂无记录)

Action Items

  • 评估现有变更流程,识别可自动化并转化为标准变更的环节
  • 明确各团队与 SRE 团队在不同阶段的交互方式和责任范围
  • 确保所有团队成员正确使用 PPM、SMACs 和 Octane 等工具
  • 完善监控覆盖,确保所有关键服务和基础设施都得到充分监控
  • 建立清晰的事件响应和升级流程