60 lines
2.1 KiB
Markdown
60 lines
2.1 KiB
Markdown
---
|
||
title: "EKS 可靠性"
|
||
type: concept
|
||
tags: [AWS, EKS, Kubernetes, Reliability]
|
||
---
|
||
|
||
## Description
|
||
EKS 可靠性是指在 Amazon EKS 集群中实现高可用性和弹性的实践,确保系统在故障发生时仍提供可预测行为。EKS 可靠性涵盖三个层面:应用可靠性、控制平面可靠性、数据平面可靠性。
|
||
|
||
## Three Layers of EKS Reliability
|
||
|
||
### 1. 应用可靠性(Application Reliability)
|
||
- 避免单点 Pod,使用 [[Pod 反亲和性]] 或 [[拓扑分布约束]]
|
||
- [[HPA]](Horizontal Pod Autoscaler)根据 CPU/内存自动扩展
|
||
- [[VPA]](Vertical Pod Autoscaler)自动调整资源请求
|
||
- [[探针]](Liveness、Readiness、Startup)监控 Pod 健康
|
||
- [[Pod 中断预算]] 确保维护期间最低服务水平
|
||
- 部署策略:Rolling、Blue-Green、Canary
|
||
|
||
### 2. 控制平面可靠性(Control Plane Reliability)
|
||
- 监控控制平面指标(API Server 请求、etcd 状态)
|
||
- 安全认证配置
|
||
- 精心配置和测试的 Admission Webhooks
|
||
- 集群升级:控制平面和数据平面分阶段升级
|
||
- EKS 平台版本自动透明升级
|
||
- minor 版本 14 个月支持周期后自动升级
|
||
|
||
### 3. 数据平面可靠性(Data Plane Reliability)
|
||
- 节点问题检测器(Node Problem Detector)
|
||
- 系统资源预留
|
||
- 实施 QoS(Quality of Service)资源配额
|
||
- 资源限制范围(LimitRanges)
|
||
- Pod 优先级和抢占
|
||
|
||
## Shared Responsibility Model
|
||
根据 AWS 共享责任模型:
|
||
- **AWS 负责**:控制平面组件(etcd、API Server、Scheduler、Controller Manager)
|
||
- **客户负责**:Worker Node、操作系统、应用配置
|
||
- **Fargate 模式**:AWS 负责节点管理和补丁升级
|
||
|
||
## Related Entities
|
||
- [[Surav Paul]]:演讲人
|
||
- [[EKS]]
|
||
- [[AWS]]
|
||
- [[Fargate]]
|
||
- [[Kubernetes]]
|
||
|
||
## Related Concepts
|
||
- [[Pod 反亲和性]]
|
||
- [[拓扑分布约束]]
|
||
- [[HPA]]
|
||
- [[VPA]]
|
||
- [[探针]]
|
||
- [[Pod 中断预算]]
|
||
- [[共享责任模型]]
|
||
|
||
## Connections
|
||
- [[EKS 可靠性]] ← 包含 [[Pod 反亲和性]]、[[拓扑分布约束]]、[[HPA]]、[[VPA]]、[[探针]]、[[Pod 中断预算]]
|
||
- [[EKS]] ← 提供 [[EKS 可靠性]]
|
||
- [[Surav Paul]] ← 阐述 [[EKS 可靠性]] |