--- title: "EKS 可靠性" type: concept tags: [AWS, EKS, Kubernetes, Reliability] --- ## Description EKS 可靠性是指在 Amazon EKS 集群中实现高可用性和弹性的实践,确保系统在故障发生时仍提供可预测行为。EKS 可靠性涵盖三个层面:应用可靠性、控制平面可靠性、数据平面可靠性。 ## Three Layers of EKS Reliability ### 1. 应用可靠性(Application Reliability) - 避免单点 Pod,使用 [[Pod 反亲和性]] 或 [[拓扑分布约束]] - [[HPA]](Horizontal Pod Autoscaler)根据 CPU/内存自动扩展 - [[VPA]](Vertical Pod Autoscaler)自动调整资源请求 - [[探针]](Liveness、Readiness、Startup)监控 Pod 健康 - [[Pod 中断预算]] 确保维护期间最低服务水平 - 部署策略:Rolling、Blue-Green、Canary ### 2. 控制平面可靠性(Control Plane Reliability) - 监控控制平面指标(API Server 请求、etcd 状态) - 安全认证配置 - 精心配置和测试的 Admission Webhooks - 集群升级:控制平面和数据平面分阶段升级 - EKS 平台版本自动透明升级 - minor 版本 14 个月支持周期后自动升级 ### 3. 数据平面可靠性(Data Plane Reliability) - 节点问题检测器(Node Problem Detector) - 系统资源预留 - 实施 QoS(Quality of Service)资源配额 - 资源限制范围(LimitRanges) - Pod 优先级和抢占 ## Shared Responsibility Model 根据 AWS 共享责任模型: - **AWS 负责**:控制平面组件(etcd、API Server、Scheduler、Controller Manager) - **客户负责**:Worker Node、操作系统、应用配置 - **Fargate 模式**:AWS 负责节点管理和补丁升级 ## Related Entities - [[Surav Paul]]:演讲人 - [[EKS]] - [[AWS]] - [[Fargate]] - [[Kubernetes]] ## Related Concepts - [[Pod 反亲和性]] - [[拓扑分布约束]] - [[HPA]] - [[VPA]] - [[探针]] - [[Pod 中断预算]] - [[共享责任模型]] ## Connections - [[EKS 可靠性]] ← 包含 [[Pod 反亲和性]]、[[拓扑分布约束]]、[[HPA]]、[[VPA]]、[[探针]]、[[Pod 中断预算]] - [[EKS]] ← 提供 [[EKS 可靠性]] - [[Surav Paul]] ← 阐述 [[EKS 可靠性]]