wiki-ingest batch 4: DevOps Culture + RTO/RPO + 三种云模型 (2026-04-16 03:02)

This commit is contained in:
2026-04-16 03:07:11 +08:00
parent dff9f3ecb1
commit a0be34e768
14 changed files with 533 additions and 49 deletions

View File

@@ -0,0 +1,33 @@
---
title: "Kill Switch"
type: concept
tags: [DevOps, FeatureFlag, 可靠性工程]
last_updated: 2026-04-16
---
## 定义
Kill Switch紧急开关Feature Flag 的紧急应用场景,可在生产环境出现故障时一键关闭问题功能,无需重新部署代码。
## 核心价值
- RTO 保险策略:问题发生时 Flip the Flag 而非 Debug under pressure
- 数据完整性保护:在 bug 持续破坏数据时立即止损,比等待完整回滚部署更快
## 典型应用场景
- 支付网关故障:立即切换到备用支付提供商
- 搜索算法异常:回退到旧的搜索算法
- AI 模型产生幻觉:切换回上一稳定版本
- 数据库迁移导致性能下降:仅回滚该变更而非整个部署
## 与 Feature Flag 的关系
- Kill Switch 是 Feature Flag 的一种高级应用
- Feature Flag 提供 Kill Switch 的工程基础(部署与发布解耦)
## 与 RTO 的关系
- Kill Switch 将 RTO 从"部署回滚时间"降至"配置变更时间"(秒级)
- HP 案例:从小时级降至分钟级
- Christian Dior 案例:从 15 分钟降至即时开关
## Connections
- [[Feature Flag]] ← Kill Switch 的工程基础
- [[RTO]] ← 通过 Kill Switch 实现秒级 RTO
- [[LaunchDarkly]] ← 企业级 Kill Switch 平台

36
wiki/concepts/RPO.md Normal file
View File

@@ -0,0 +1,36 @@
---
title: "RPO"
type: concept
tags: [DevOps, SRE, 灾难恢复]
last_updated: 2026-04-16
---
## 定义
Recovery Point Objective恢复点目标可接受的最新数据丢失量以时间衡量从故障时刻往前回溯
## 计算方式
若数据库在 15:00 崩溃,最后一次备份在 14:00则 RPO 为 1 小时14:00-15:00 之间的数据丢失)。
## 典型场景与目标
| 场景 | RPO 目标 | 原因 |
|------|---------|------|
| 电商支付系统 | 0 分钟 | 不能丢失任何交易数据 |
| 实时聊天 | 5 分钟 | 可接受丢失最近几分钟消息 |
| 用户分析仪表盘 | 1 小时 | 部分历史数据可重建 |
| 内部 CRM | 15 分钟 | 最近的客户更新很重要 |
| 博客/营销站点 | 24 小时 | 一天的评论/注册丢失可接受 |
## 与 RTO 的关系
- RTO 是速度指标停机多久RPO 是数据完整性指标(丢多少数据)
- 备份频率CDP vs 定时备份)直接影响 RPO
- 即使 RTO 优秀5分钟恢复RPO 差1小时前备份仍意味着大量数据丢失
## 实现技术
- [[连续数据保护]]CDP持续备份实现分钟级甚至秒级 RPO
- 同步复制:零 RPO但成本高
- 异步复制:有延迟,通常分钟级 RPO
## Connections
- [[RTO]] ← 协同指标,共同构成灾难恢复策略
- [[灾难恢复]] ← RPO 是其核心衡量指标
- [[连续数据保护]] ← 实现更小 RPO 的技术手段

36
wiki/concepts/RTO.md Normal file
View File

@@ -0,0 +1,36 @@
---
title: "RTO"
type: concept
tags: [DevOps, SRE, 灾难恢复]
last_updated: 2026-04-16
---
## 定义
Recovery Time Objective恢复时间目标系统从故障发生到完全恢复可用的最大可容忍时间。
## 计算方式
从系统故障时刻开始计时,到用户可以再次正常使用系统为止。
## 典型场景与目标
| 场景 | RTO 目标 | 原因 |
|------|---------|------|
| 电商支付系统 | <5 分钟 | 停机直接损失收入 |
| 实时聊天 | <30 秒 | 用户期望即时响应 |
| 用户分析仪表盘 | <30 分钟 | 停机影响有限 |
| 内部 CRM | <4 小时 | 可人工 workaround |
| 博客/营销站点 | <2 小时 | 业务影响相对较小 |
## 与 RPO 的关系
- RTO 是速度指标RPO 是数据完整性指标
- 两者必须协同优化:快速恢复但丢大量数据,或缓慢恢复但零数据丢失,均不完整
## 与 Feature Flag 的关系
- Feature Flag 将 RTO 从"部署回滚时间"(小时级)降至"配置变更时间"(秒级)
- Kill Switch 是实现秒级 RTO 的核心机制
## Connections
- [[RPO]] ← 协同指标,共同构成灾难恢复策略
- [[灾难恢复]] ← RTO 是其核心衡量指标
- [[Feature Flag]] ← 实现秒级 RTO 的工程手段
- [[Kill Switch]] ← RTO 保险策略
- [[LaunchDarkly]] ← 企业级 RTO 改善工具

View File

@@ -0,0 +1,32 @@
---
title: "共享责任模型"
type: concept
tags: [Cloud, 安全, 合规]
last_updated: 2026-04-16
---
## 定义
Shared Responsibility Model云环境下云服务商与客户之间对安全、合规、运维等责任的划分模型。无论采用何种云部署模式责任均由双方共同承担。
## 责任划分原则
- **云服务商**负责:底层基础设施的物理安全、硬件维护、网络基础设施的可用性和弹性
- **客户(组织)负责**:访问控制与身份管理、数据安全与加密、灾难恢复规划、应用程序层安全、合规性
## 不同部署模式的差异
| 责任领域 | 公有云 | 私有云 | 混合云 |
|---------|--------|--------|--------|
| 物理安全 | 云厂商 | 组织/厂商 | 混合 |
| 网络基础设施 | 云厂商 | 组织/厂商 | 混合 |
| 访问控制 | 客户 | 客户 | 客户(跨云) |
| 数据加密 | 客户 | 客户 | 客户 |
| 灾难恢复 | 客户 | 客户 | 客户(跨云设计) |
## 关键误解
- 误以为使用 SaaS 应用后所有安全问题由服务商负责
- 实际上客户仍需负责:谁有访问权限、数据如何被使用、是否符合合规要求
## Connections
- [[公有云]] ← 共享责任模型的核心框架
- [[私有云]] ← 责任划分偏向组织内部
- [[混合云]] ← 跨云环境的共享责任复杂性更高
- [[灾难恢复]] ← 属于客户责任,云厂商提供工具但规划由客户负责

View File

@@ -0,0 +1,32 @@
---
title: "渐进式发布"
type: concept
tags: [DevOps, 发布策略, FeatureFlag]
last_updated: 2026-04-16
---
## 定义
Gradual Rollout / Progressive Delivery将新功能分阶段向用户群体发布的发布策略而非全量一次性发布。
## 标准分阶段
1. **1% 用户**:监控错误率、性能指标
2. **5% 用户**:监控转化率、用户反馈
3. **25% 用户**:检查对下游系统的负载压力
4. **100% 用户**:全量发布
## 核心价值
- 将影响范围控制在局部,故障影响从全局降至局部
- 将 RTO 从"小时级紧急回滚部署"降至"秒级 Feature Flag 关闭"
- 提供真实的用户数据反馈,而非仅靠测试环境
## 细分策略
- **金丝雀发布**Canary Release向小比例用户发布新版本观察后再全量
- **蓝绿部署**Blue/Green Deployment两套环境并行切换流量
- **A/B 测试**:不同用户看到不同版本,对比效果
- **特性分支隔离**:按用户属性(地区/平台/角色)分批发布
## Connections
- [[Feature Flag]] ← 渐进式发布的工程基础
- [[Kill Switch]] ← 渐进式发布过程中的应急机制
- [[RTO]] ← 渐进式发布将故障 RTO 降至秒级
- [[LaunchDarkly]] ← 支持渐进式发布的平台