--- title: "CTP Topic 59 Achieving reliability with Amazon EKS" type: source tags: [AWS, EKS, Kubernetes, Reliability, CTP] date: 2026-04-14 --- ## Source File - [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/04_EKS/ctp-topic-59-achieving-reliability-with-amazon-eks.md]] ## Summary - 核心主题:Amazon EKS 可靠性实践,涵盖容器服务选型、共享责任模型、三层可靠性设计 - 问题域:如何在 EKS 上构建高可靠性 Kubernetes 集群 - 方法/机制:应用可靠性(Pod 分布、HPA、VPA、探针)、控制平面可靠性(监控、认证、集群升级)、数据平面可靠性(节点检测、资源预留、QoS) - 结论/价值:EKS 可靠性需要从应用层、控制层、数据层全面考虑,AWS 与客户按共享责任模型分工 ## Key Claims - ECS 适合容器入门用户,EKS 适合熟悉 Kubernetes 生态的用户 - 可靠性是指系统在故障发生时仍能提供可预测行为 - AWS 负责管理控制平面(API Server、etcd、Scheduler、Controller Manager),客户负责数据平面(Worker Node、OS、应用配置) - Fargate 模式下客户无需管理节点和补丁升级 - 应用可靠性通过 Pod 反亲和性、拓扑分布约束、HPA/VPA、探针、Pod 中断预算实现 - 控制平面可靠性通过监控控制平面指标、安全认证、精心配置的 webhook、集群升级实现 - 数据平面可靠性通过节点问题检测器、系统资源预留、QoS 资源配额实现 ## Key Quotes > "Reliability in a system means it offers predictable behavior even when failures occur." — Surav Paul > "ECS is a more AWS opinionated way of running containers." — Surav Paul > "With Fargate, you don't have to worry about managing the nodes or worrying about patching or upgrading the nodes." — Surav Paul ## Key Concepts - [[EKS 可靠性]]:系统在故障发生时仍提供可预测行为 - [[共享责任模型]]:AWS 管理控制平面,客户负责数据平面和应用 - [[Pod 反亲和性]]:避免 Pod 部署在同一节点或可用区 - [[拓扑分布约束]]:细粒度控制 Pod 在可用区间的分布 - [[HPA]]:Horizontal Pod Autoscaler,根据 CPU/内存自动扩展 Pod - [[VPA]]:Vertical Pod Autoscaler,自动调整 Pod 资源请求 - [[探针]]:Liveness、Readiness、Startup 探针用于 Pod 健康检测 - [[Pod 中断预算]]:确保维护期间仍提供最低服务水平 ## Key Entities - [[Surav Paul]]:AWS 高级解决方案架构师,本主题演讲人 - [[AWS]]:公有云平台,提供 EKS 服务 - [[EKS]]:Elastic Kubernetes Service,AWS 托管 Kubernetes 服务 - [[ECS]]:Elastic Container Service,AWS 容器服务 - [[Fargate]]:AWS 无服务器容器运行环境 ## Connections - [[EKS]] ← 使用 [[共享责任模型]] ← [[AWS]] - [[Surav Paul]] ← 演讲 [[CTP Topic 59 Achieving reliability with Amazon EKS]] - [[CTP Topic 59 Achieving reliability with Amazon EKS]] ← 依赖 [[EKS]] - [[CTP Topic 70 EKS Deployment using IAC]] ← 关联主题 ## Contradictions - (暂无)