nexus/wiki/concepts/EKS-可靠性.md

---
title: "EKS 可靠性"
type: concept
tags: [AWS, EKS, Kubernetes, Reliability]
---

## Description
EKS 可靠性是指在 Amazon EKS 集群中实现高可用性和弹性的实践，确保系统在故障发生时仍提供可预测行为。EKS 可靠性涵盖三个层面：应用可靠性、控制平面可靠性、数据平面可靠性。

## Three Layers of EKS Reliability

### 1. 应用可靠性（Application Reliability）
- 避免单点 Pod，使用 [[Pod 反亲和性]] 或 [[拓扑分布约束]]
- [[HPA]]（Horizontal Pod Autoscaler）根据 CPU/内存自动扩展
- [[VPA]]（Vertical Pod Autoscaler）自动调整资源请求
- [[探针]]（Liveness、Readiness、Startup）监控 Pod 健康
- [[Pod 中断预算]] 确保维护期间最低服务水平
- 部署策略：Rolling、Blue-Green、Canary

### 2. 控制平面可靠性（Control Plane Reliability）
- 监控控制平面指标（API Server 请求、etcd 状态）
- 安全认证配置
- 精心配置和测试的 Admission Webhooks
- 集群升级：控制平面和数据平面分阶段升级
- EKS 平台版本自动透明升级
- minor 版本 14 个月支持周期后自动升级

### 3. 数据平面可靠性（Data Plane Reliability）
- 节点问题检测器（Node Problem Detector）
- 系统资源预留
- 实施 QoS（Quality of Service）资源配额
- 资源限制范围（LimitRanges）
- Pod 优先级和抢占

## Shared Responsibility Model
根据 AWS 共享责任模型：
- **AWS 负责**：控制平面组件（etcd、API Server、Scheduler、Controller Manager）
- **客户负责**：Worker Node、操作系统、应用配置
- **Fargate 模式**：AWS 负责节点管理和补丁升级

## Related Entities
- [[Surav Paul]]：演讲人
- [[EKS]]
- [[AWS]]
- [[Fargate]]
- [[Kubernetes]]

## Related Concepts
- [[Pod 反亲和性]]
- [[拓扑分布约束]]
- [[HPA]]
- [[VPA]]
- [[探针]]
- [[Pod 中断预算]]
- [[共享责任模型]]

## Connections
- [[EKS 可靠性]] ← 包含 [[Pod 反亲和性]]、[[拓扑分布约束]]、[[HPA]]、[[VPA]]、[[探针]]、[[Pod 中断预算]]
- [[EKS]] ← 提供 [[EKS 可靠性]]
- [[Surav Paul]] ← 阐述 [[EKS 可靠性]]