Auto-sync: 2026-04-21 17:12

This commit is contained in:
2026-04-21 17:12:45 +08:00
parent 914c8f6925
commit 0fe7ba237f
1888 changed files with 220 additions and 68174 deletions

View File

@@ -1,56 +0,0 @@
---
title: "CTP Topic 30 Managing Change"
type: source
tags: [cloud-learning, change-management, SRE]
date: 2026-04-14
---
## Source File
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/10_OpenText-Series/ctp-topic-30-managing-change.md]]
## Summary
- 核心主题:云转型项目中的变更管理流程,以及 SRE 团队在变更管理中的角色
- 问题域IT 服务管理、变更管理流程、SRE 职责
- 方法/机制三种变更类型标准变更、正常变更、紧急变更的分类和处理流程SRE 团队与产品团队的协作模式
- 结论/价值:明确 SRE 角色定义和变更管理流程,确保云转型项目中各团队的有效协作
## Key Claims
- SRE 团队的核心职责是通过软件工程思维方式解决运维问题,自动化重复性工作,提高系统可靠性和可测试性
- 变更分为三种类型:标准变更(预批准,无需 CAB、正常变更需 CAB 批准)、紧急变更(为缓解事故而立即执行)
- 事件是触发警报的低级别事件,事故是超出计划外的服务中断或服务质量下降,对客户影响较大
- SRE 团队与产品团队的协作分为三个阶段构建和设置、早期上线支持Early Live Support、BAU日常运营
## Key Quotes
> "SRE 的核心在于自动化重复性工作,提高系统可靠性和可测试性" — Brendan Starnig
> "标准变更应尽可能实现完全自动化,通过 IaC + CI/CD Pipeline" — Brendan Starnig
> "事件的 CAPACorrective and Preventive Action目的是从事故中提取根因并预防同类问题再次发生" — Brendan Starnig
## Key Concepts
- [[SRE]]:站点可靠性工程,将软件工程方法应用于运维问题
- [[Change Management]]:变更管理,三种类型(标准变更、正常变更、紧急变更)
- [[SMACs]]Service Management Automation X当前使用的 ITSM 工具
- [[CAPA]]Corrective and Preventive Action纠正和预防措施即 Post-mortem 回顾
- [[SLO]]Service Level Objective服务等级目标
- [[SLR]]Service Level Requirement服务等级需求
- [[Early Live Support]]Build 与 BAU 之间的过渡阶段
## Key Entities
- [[Brendan Starnig]]SRE Function Lead, Platform Engineering讲师
- [[SMACs Ticket]]:内部服务管理工单系统,用于 Ticket、Incident、Change 管理
## Connections
- [[ctp-topic-17-active-directory-services-in-gruntwork-aws-lzs]] ← related_to ← [[SRE]]AD 服务与 SRE 协作流程相关
- [[ctp-topic-28-aws-tag-validation-tool]] ← relates_to ← [[Standard Change]]IaC 变更的 Tagging 标准属于 Standard Change 范畴
- [[ctp-topic-19-configuring-dns-within-aws-lzs]] ← relates_to ← [[SRE Support Model]]DNS 配置与 SRE 支持模型的关系
## Contradictions
- (暂无记录)
## Action Items
- [ ] 评估现有变更流程,识别可自动化并转化为标准变更的环节
- [ ] 明确各团队与 SRE 团队在不同阶段的交互方式和责任范围
- [ ] 确保所有团队成员正确使用 PPM、SMACs 和 Octane 等工具
- [ ] 完善监控覆盖,确保所有关键服务和基础设施都得到充分监控
- [ ] 建立清晰的事件响应和升级流程