2.1 KiB
2.1 KiB
title, type, tags
| title | type | tags | ||||
|---|---|---|---|---|---|---|
| EKS 可靠性 | concept |
|
Description
EKS 可靠性是指在 Amazon EKS 集群中实现高可用性和弹性的实践,确保系统在故障发生时仍提供可预测行为。EKS 可靠性涵盖三个层面:应用可靠性、控制平面可靠性、数据平面可靠性。
Three Layers of EKS Reliability
1. 应用可靠性(Application Reliability)
- 避免单点 Pod,使用 Pod 反亲和性 或 拓扑分布约束
- HPA(Horizontal Pod Autoscaler)根据 CPU/内存自动扩展
- VPA(Vertical Pod Autoscaler)自动调整资源请求
- 探针(Liveness、Readiness、Startup)监控 Pod 健康
- Pod 中断预算 确保维护期间最低服务水平
- 部署策略:Rolling、Blue-Green、Canary
2. 控制平面可靠性(Control Plane Reliability)
- 监控控制平面指标(API Server 请求、etcd 状态)
- 安全认证配置
- 精心配置和测试的 Admission Webhooks
- 集群升级:控制平面和数据平面分阶段升级
- EKS 平台版本自动透明升级
- minor 版本 14 个月支持周期后自动升级
3. 数据平面可靠性(Data Plane Reliability)
- 节点问题检测器(Node Problem Detector)
- 系统资源预留
- 实施 QoS(Quality of Service)资源配额
- 资源限制范围(LimitRanges)
- Pod 优先级和抢占
Shared Responsibility Model
根据 AWS 共享责任模型:
- AWS 负责:控制平面组件(etcd、API Server、Scheduler、Controller Manager)
- 客户负责:Worker Node、操作系统、应用配置
- Fargate 模式:AWS 负责节点管理和补丁升级