Files
nexus/wiki/concepts/Failover.md
2026-04-22 04:03:04 +08:00

2.0 KiB
Raw Blame History

title, type, tags, date
title type tags date
Failover concept
cloud-computing
reliability
high-availability
2025-03-02

Failover

Failover(故障转移)是高可用性系统的核心机制,当主系统发生故障时,自动切换到备用系统,确保服务连续性。

Definition

故障转移是一种自动化的冗余机制,监控系统检测到主节点故障后,自动将流量或工作负载切换到备用节点,用户通常无感知。

Key Characteristics

  • 自动化:无需人工干预,自动检测和切换
  • 快速恢复:切换时间可从几分钟缩短到秒级
  • 透明切换:用户无感知或感知极小中断
  • 健康检查:持续监控主节点健康状态

Failover Patterns in Cloud

Pattern Description
Active-Passive 主节点处理流量,备用节点待命;故障时切换
Active-Active 多个节点同时处理流量;故障节点自动剔除
Geo-Failover 跨地理区域的故障转移
Multi-Region 多区域部署,单区域故障不影响其他区域

Cloud Myths Context

Failover 是反驳"云不可靠"误解的关键机制:

  • 云服务商通过全球分布式架构实现跨区域故障转移
  • 自动化故障转移 SLA 保障 99.99% 可用性
  • 传统本地部署难以实现同等水平的故障转移能力

Implementation Components

  • Load Balancer:健康检查 + 流量分发
  • Health Checks:定期检测服务可用性
  • DNS FailoverRoute 53 / Cloud DNS 的 DNS 级切换
  • Database Replication:数据库级别的同步/异步复制
  • Auto Scaling Groups:实例级别的自动替换

Sources