Files
nexus/wiki/concepts/EKS-可靠性.md
2026-04-19 14:51:38 +08:00

2.1 KiB
Raw Blame History

title, type, tags
title type tags
EKS 可靠性 concept
AWS
EKS
Kubernetes
Reliability

Description

EKS 可靠性是指在 Amazon EKS 集群中实现高可用性和弹性的实践确保系统在故障发生时仍提供可预测行为。EKS 可靠性涵盖三个层面:应用可靠性、控制平面可靠性、数据平面可靠性。

Three Layers of EKS Reliability

1. 应用可靠性Application Reliability

  • 避免单点 Pod使用 Pod 反亲和性拓扑分布约束
  • HPAHorizontal Pod Autoscaler根据 CPU/内存自动扩展
  • VPAVertical Pod Autoscaler自动调整资源请求
  • 探针Liveness、Readiness、Startup监控 Pod 健康
  • Pod 中断预算 确保维护期间最低服务水平
  • 部署策略Rolling、Blue-Green、Canary

2. 控制平面可靠性Control Plane Reliability

  • 监控控制平面指标API Server 请求、etcd 状态)
  • 安全认证配置
  • 精心配置和测试的 Admission Webhooks
  • 集群升级:控制平面和数据平面分阶段升级
  • EKS 平台版本自动透明升级
  • minor 版本 14 个月支持周期后自动升级

3. 数据平面可靠性Data Plane Reliability

  • 节点问题检测器Node Problem Detector
  • 系统资源预留
  • 实施 QoSQuality of Service资源配额
  • 资源限制范围LimitRanges
  • Pod 优先级和抢占

Shared Responsibility Model

根据 AWS 共享责任模型:

  • AWS 负责控制平面组件etcd、API Server、Scheduler、Controller Manager
  • 客户负责Worker Node、操作系统、应用配置
  • Fargate 模式AWS 负责节点管理和补丁升级

Connections