3.2 KiB
3.2 KiB
title, type, tags, date
| title | type | tags | date | |||
|---|---|---|---|---|---|---|
| CTP Topic 30 Managing Change | source |
|
2026-04-14 |
Source File
- raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/10_OpenText-Series/ctp-topic-30-managing-change.md
Summary
- 核心主题:云转型项目中的变更管理流程,以及 SRE 团队在变更管理中的角色
- 问题域:IT 服务管理、变更管理流程、SRE 职责
- 方法/机制:三种变更类型(标准变更、正常变更、紧急变更)的分类和处理流程,SRE 团队与产品团队的协作模式
- 结论/价值:明确 SRE 角色定义和变更管理流程,确保云转型项目中各团队的有效协作
Key Claims
- SRE 团队的核心职责是通过软件工程思维方式解决运维问题,自动化重复性工作,提高系统可靠性和可测试性
- 变更分为三种类型:标准变更(预批准,无需 CAB)、正常变更(需 CAB 批准)、紧急变更(为缓解事故而立即执行)
- 事件是触发警报的低级别事件,事故是超出计划外的服务中断或服务质量下降,对客户影响较大
- SRE 团队与产品团队的协作分为三个阶段:构建和设置、早期上线支持(Early Live Support)、BAU(日常运营)
Key Quotes
"SRE 的核心在于自动化重复性工作,提高系统可靠性和可测试性" — Brendan Starnig
"标准变更应尽可能实现完全自动化,通过 IaC + CI/CD Pipeline" — Brendan Starnig
"事件的 CAPA(Corrective and Preventive Action)目的是从事故中提取根因并预防同类问题再次发生" — Brendan Starnig
Key Concepts
- SRE:站点可靠性工程,将软件工程方法应用于运维问题
- Change Management:变更管理,三种类型(标准变更、正常变更、紧急变更)
- SMACs:Service Management Automation X,当前使用的 ITSM 工具
- CAPA:Corrective and Preventive Action,纠正和预防措施,即 Post-mortem 回顾
- SLO:Service Level Objective,服务等级目标
- SLR:Service Level Requirement,服务等级需求
- Early Live Support:Build 与 BAU 之间的过渡阶段
Key Entities
- Brendan Starnig:SRE Function Lead, Platform Engineering,讲师
- SMACs Ticket:内部服务管理工单系统,用于 Ticket、Incident、Change 管理
Connections
- ctp-topic-17-active-directory-services-in-gruntwork-aws-lzs ← related_to ← SRE:AD 服务与 SRE 协作流程相关
- ctp-topic-28-aws-tag-validation-tool ← relates_to ← Standard Change:IaC 变更的 Tagging 标准属于 Standard Change 范畴
- ctp-topic-19-configuring-dns-within-aws-lzs ← relates_to ← SRE Support Model:DNS 配置与 SRE 支持模型的关系
Contradictions
- (暂无记录)
Action Items
- 评估现有变更流程,识别可自动化并转化为标准变更的环节
- 明确各团队与 SRE 团队在不同阶段的交互方式和责任范围
- 确保所有团队成员正确使用 PPM、SMACs 和 Octane 等工具
- 完善监控覆盖,确保所有关键服务和基础设施都得到充分监控
- 建立清晰的事件响应和升级流程