79 lines
3.7 KiB
Markdown
79 lines
3.7 KiB
Markdown
---
|
||
title: "Customer Zero Environment"
|
||
type: concept
|
||
tags: [Customer-Zero, DevOps, QA, Staging, Release-Management, Production-Readiness]
|
||
sources:
|
||
- public-cloud-learning-sessions-opentext-evolving-from-dr-to-recovery-assurance-2
|
||
last_updated: 2026-04-29
|
||
---
|
||
|
||
## Customer Zero Environment
|
||
|
||
Customer Zero Environment(新版本的首位客户环境/内部验证环境)是指在新版本或产品正式发布给外部客户之前,在内部部署的预生产环境,用于在真实流量场景下验证功能正确性、性能和恢复能力。是 [[SRE]] Build 阶段的关键实践,也是 [[Recovery-Assurance]] 四位框架中"Build"环节的核心概念。
|
||
|
||
## Definition
|
||
|
||
> "Customer Zero is the environment where your organization is the first customer of your own product — validating releases in production-like conditions before external rollout."
|
||
|
||
Customer Zero 环境本质上是**内部影子客户**——用自己的产品,在受控环境中模拟真实使用场景,发现问题后再对外发布。
|
||
|
||
## Purpose
|
||
|
||
| 目标 | 说明 |
|
||
|------|------|
|
||
| **新版本验证** | 在真实环境中测试新版本功能和性能 |
|
||
| **恢复路径验证** | 验证备份/恢复/故障转移流程在实际负载下是否有效 |
|
||
| **配置变更验证** | 测试配置变更(IaC 脚本、基础设施调整)对系统的影响 |
|
||
| **灾难演练** | 在隔离环境中主动触发故障,验证恢复 SLA |
|
||
| **性能基线建立** | 建立系统在正常负载下的性能基准 |
|
||
|
||
## Customer Zero vs. Other Environments
|
||
|
||
| 环境 | 目的 | 何时使用 |
|
||
|------|------|----------|
|
||
| **Dev** | 开发调试 | 开发人员日常编码 |
|
||
| **Test** | 功能测试 | QA 团队执行测试用例 |
|
||
| **Staging** | 预发布验证 | 接近生产的镜像测试 |
|
||
| **Customer Zero** | **内部影子客户验证** | **在真实生产配置下进行最终验证** |
|
||
| **Production** | 正式服务客户 | 正式上线 |
|
||
|
||
## Key Characteristics
|
||
|
||
1. **生产等效配置**:Customer Zero 使用与生产完全相同的基础设施配置(VPC、子网、安全组、IAM 角色)
|
||
2. **影子数据**:使用脱敏的生产数据副本(或合成数据),反映真实数据量和分布
|
||
3. **隔离但连通**:通常与生产隔离,但可以使用生产的数据源(如 CloudWatch Logs)的脱敏版本
|
||
4. **持续验证**:不仅是发布前的单次验证,而是 CI/CD 流水线中的持续验证关卡
|
||
|
||
## Connection to SRE
|
||
|
||
在 [[SRE]] 的 Build 阶段,Customer Zero 环境是"Release Readiness"的核心:
|
||
|
||
- **Go-Live Checklist 的一部分**:SRE 团队在支持新产品上线前,需要在 Customer Zero 验证监控覆盖、告警阈值和恢复流程
|
||
- **Error Budget 验证**:在新版本发布后,通过 Customer Zero 监控错误趋势,确认 Error Budget 消耗符合预期
|
||
- **Toil 发现**:Customer Zero 中发现的重复性问题,推动自动化改进,减少未来的 Toil
|
||
|
||
## Connection to Recovery Assurance
|
||
|
||
[[Recovery-Assurance]] 四位框架中的"Build"环节:
|
||
|
||
```
|
||
Design → Software → Build(Customer Zero) → Environments
|
||
```
|
||
|
||
- **Design**:定义可恢复性需求([[RTO]]/[[RPO]])
|
||
- **Software**:软件内嵌遥测,支持健康监控
|
||
- **Build**:Customer Zero 环境验证恢复路径和 SLA
|
||
- **Environments**:SRE + [[Observability]] 支撑持续运营
|
||
|
||
## Related Concepts
|
||
|
||
- [[SRE]] — Customer Zero 是 SRE Build 阶段的关键实践
|
||
- [[Recovery-Assurance]] — Build 环节的验证环境
|
||
- [[Observability]] — Customer Zero 中的恢复演练依赖可观测性数据
|
||
- [[RTO]] / [[RPO]] — Customer Zero 验证 DR 目标是否满足
|
||
- [[CI/CD]] — Customer Zero 是 CI/CD 流水线中的质量关卡
|
||
|
||
## Sources
|
||
|
||
- [[public-cloud-learning-sessions-opentext-evolving-from-dr-to-recovery-assurance-2]]
|