56 lines
3.2 KiB
Markdown
56 lines
3.2 KiB
Markdown
---
|
||
title: "CTP Topic 30 Managing Change"
|
||
type: source
|
||
tags: [cloud-learning, change-management, SRE]
|
||
date: 2026-04-14
|
||
---
|
||
|
||
## Source File
|
||
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/10_OpenText-Series/ctp-topic-30-managing-change.md]]
|
||
|
||
## Summary
|
||
- 核心主题:云转型项目中的变更管理流程,以及 SRE 团队在变更管理中的角色
|
||
- 问题域:IT 服务管理、变更管理流程、SRE 职责
|
||
- 方法/机制:三种变更类型(标准变更、正常变更、紧急变更)的分类和处理流程,SRE 团队与产品团队的协作模式
|
||
- 结论/价值:明确 SRE 角色定义和变更管理流程,确保云转型项目中各团队的有效协作
|
||
|
||
## Key Claims
|
||
- SRE 团队的核心职责是通过软件工程思维方式解决运维问题,自动化重复性工作,提高系统可靠性和可测试性
|
||
- 变更分为三种类型:标准变更(预批准,无需 CAB)、正常变更(需 CAB 批准)、紧急变更(为缓解事故而立即执行)
|
||
- 事件是触发警报的低级别事件,事故是超出计划外的服务中断或服务质量下降,对客户影响较大
|
||
- SRE 团队与产品团队的协作分为三个阶段:构建和设置、早期上线支持(Early Live Support)、BAU(日常运营)
|
||
|
||
## Key Quotes
|
||
> "SRE 的核心在于自动化重复性工作,提高系统可靠性和可测试性" — Brendan Starnig
|
||
|
||
> "标准变更应尽可能实现完全自动化,通过 IaC + CI/CD Pipeline" — Brendan Starnig
|
||
|
||
> "事件的 CAPA(Corrective and Preventive Action)目的是从事故中提取根因并预防同类问题再次发生" — Brendan Starnig
|
||
|
||
## Key Concepts
|
||
- [[SRE]]:站点可靠性工程,将软件工程方法应用于运维问题
|
||
- [[Change Management]]:变更管理,三种类型(标准变更、正常变更、紧急变更)
|
||
- [[SMACs]]:Service Management Automation X,当前使用的 ITSM 工具
|
||
- [[CAPA]]:Corrective and Preventive Action,纠正和预防措施,即 Post-mortem 回顾
|
||
- [[SLO]]:Service Level Objective,服务等级目标
|
||
- [[SLR]]:Service Level Requirement,服务等级需求
|
||
- [[Early Live Support]]:Build 与 BAU 之间的过渡阶段
|
||
|
||
## Key Entities
|
||
- [[Brendan Starnig]]:SRE Function Lead, Platform Engineering,讲师
|
||
- [[SMACs Ticket]]:内部服务管理工单系统,用于 Ticket、Incident、Change 管理
|
||
|
||
## Connections
|
||
- [[ctp-topic-17-active-directory-services-in-gruntwork-aws-lzs]] ← related_to ← [[SRE]]:AD 服务与 SRE 协作流程相关
|
||
- [[ctp-topic-28-aws-tag-validation-tool]] ← relates_to ← [[Standard Change]]:IaC 变更的 Tagging 标准属于 Standard Change 范畴
|
||
- [[ctp-topic-19-configuring-dns-within-aws-lzs]] ← relates_to ← [[SRE Support Model]]:DNS 配置与 SRE 支持模型的关系
|
||
|
||
## Contradictions
|
||
- (暂无记录)
|
||
|
||
## Action Items
|
||
- [ ] 评估现有变更流程,识别可自动化并转化为标准变更的环节
|
||
- [ ] 明确各团队与 SRE 团队在不同阶段的交互方式和责任范围
|
||
- [ ] 确保所有团队成员正确使用 PPM、SMACs 和 Octane 等工具
|
||
- [ ] 完善监控覆盖,确保所有关键服务和基础设施都得到充分监控
|
||
- [ ] 建立清晰的事件响应和升级流程 |