Files
nexus/wiki/concepts/EKS-可靠性.md
2026-04-19 14:51:38 +08:00

60 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "EKS 可靠性"
type: concept
tags: [AWS, EKS, Kubernetes, Reliability]
---
## Description
EKS 可靠性是指在 Amazon EKS 集群中实现高可用性和弹性的实践确保系统在故障发生时仍提供可预测行为。EKS 可靠性涵盖三个层面:应用可靠性、控制平面可靠性、数据平面可靠性。
## Three Layers of EKS Reliability
### 1. 应用可靠性Application Reliability
- 避免单点 Pod使用 [[Pod 反亲和性]] 或 [[拓扑分布约束]]
- [[HPA]]Horizontal Pod Autoscaler根据 CPU/内存自动扩展
- [[VPA]]Vertical Pod Autoscaler自动调整资源请求
- [[探针]]Liveness、Readiness、Startup监控 Pod 健康
- [[Pod 中断预算]] 确保维护期间最低服务水平
- 部署策略Rolling、Blue-Green、Canary
### 2. 控制平面可靠性Control Plane Reliability
- 监控控制平面指标API Server 请求、etcd 状态)
- 安全认证配置
- 精心配置和测试的 Admission Webhooks
- 集群升级:控制平面和数据平面分阶段升级
- EKS 平台版本自动透明升级
- minor 版本 14 个月支持周期后自动升级
### 3. 数据平面可靠性Data Plane Reliability
- 节点问题检测器Node Problem Detector
- 系统资源预留
- 实施 QoSQuality of Service资源配额
- 资源限制范围LimitRanges
- Pod 优先级和抢占
## Shared Responsibility Model
根据 AWS 共享责任模型:
- **AWS 负责**控制平面组件etcd、API Server、Scheduler、Controller Manager
- **客户负责**Worker Node、操作系统、应用配置
- **Fargate 模式**AWS 负责节点管理和补丁升级
## Related Entities
- [[Surav Paul]]:演讲人
- [[EKS]]
- [[AWS]]
- [[Fargate]]
- [[Kubernetes]]
## Related Concepts
- [[Pod 反亲和性]]
- [[拓扑分布约束]]
- [[HPA]]
- [[VPA]]
- [[探针]]
- [[Pod 中断预算]]
- [[共享责任模型]]
## Connections
- [[EKS 可靠性]] ← 包含 [[Pod 反亲和性]]、[[拓扑分布约束]]、[[HPA]]、[[VPA]]、[[探针]]、[[Pod 中断预算]]
- [[EKS]] ← 提供 [[EKS 可靠性]]
- [[Surav Paul]] ← 阐述 [[EKS 可靠性]]