--- title: "CTP Topic 68 Introduction to Redshift" type: source tags: - AWS - Redshift - Data-Warehouse - CTP date: 2026-04-14 --- ## Source File - [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/01_AWS-Landing-Zone/ctp-topic-68-introduction-to-redshift.md]] ## Summary(用中文描述) - 核心主题:AWS Redshift 数据仓库的架构、核心组件及关键特性 - 问题域:企业级云数据仓库设计与选型 - 方法/机制:Redshift 集群架构(Leader Node + Compute Node)、列式存储 vs 行式存储、MPP 大规模并行处理、数据压缩、Sort Key 与 Dist Key 优化 - 结论/价值:Redshift 是完全托管的 PB 级云数据仓库解决方案,专为 OLAP 场景设计,提供快速安装、自动备份、点时间恢复及跨区域灾难恢复能力 ## Key Claims(用中文描述) - Redshift 通过 Leader Node 管理 Schema、元数据和查询计划,由 Compute Node 在各 Slice 上并行执行查询,实现高速数据检索 - Redshift 支持三种实例类型(Dense Compute、Dense Storage、RA3),RA3 以 AWS 托管 NVMe 存储提供成本效益和大规模存储容量 - MPP(大规模并行处理)通过跨多个 Compute Node 并行处理查询,显著提升查询速度和响应时间 - 列式存储专为数据仓库操作优化,相比行式存储具有更快的查询性能和更高的内存使用效率 - Sort Key 和 Dist Key 在优化查询性能和管理 Compute Node 间数据分布方面起关键作用 ## Key Quotes > "Redshift is a fully managed, petabyte-scale data warehouse solution in the cloud. It is designed for data warehousing, enabling quick data retrieval from large datasets." — Redshift 核心定位 > "The leader node manages schema, warehouse metadata, and query planning, distributing instructions to compute nodes." — 架构职责划分 > "RA3 is noted for its cost-effectiveness and large storage capacity, utilizing AWS-managed NVMe storage." — RA3 实例特点 ## Key Concepts - [[MassivelyParallelProcessing]]:跨多个计算节点并行处理查询,提升查询速度和响应时间 - [[ColumnarStorage]]:列式存储,专为数据仓库操作优化,具有更快的查询性能和更高的内存使用效率 - [[RowBasedStorage]]:行式存储,适用于事务性操作 - [[DataCompression]]:数据压缩技术(如 LZO),减少数据大小以提升性能 - [[SortKey]]:排序键,用于优化查询和管理 Compute Node 间数据分布 - [[DistributionKey]]:分布键(Dist Key),决定数据在 Compute Node 间的分布方式 - [[SliceArchitecture]]:Compute Node 内部的数据处理单元,每个 Slice 独立执行查询片段 - [[OLAP]]:在线分析处理,Redshift 的主要工作负载类型 ## Key Entities - [[AWSRedshift]]:AWS 提供的大规模并行云数据仓库服务,完全托管,支持 PB 级数据 - [[LeaderNode]]:Redshift 集群中的协调节点,负责 Schema 管理、元数据维护和查询规划 - [[ComputeNode]]:Redshift 集群中的计算节点,负责在 Slice 上执行查询并返回结果 - [[JDBC]]:Java 数据库连接协议,Redshift 客户端连接方式之一 - [[ODBC]]:开放数据库连接协议,Redshift 客户端连接方式之一 - [[AWSManagedNVMe]]:RA3 实例使用的 AWS 托管 NVMe 存储,提供高性能和成本效益 ## Connections - [[CTP_Topic_58_AWS_EC2_Image_Builder]] ← topic_related ← [[AWSRedshift]](同属 AWS Landing Zone 学习系列) - [[AWSRedshift]] ← uses ← [[MassivelyParallelProcessing]] - [[AWSRedshift]] ← uses ← [[ColumnarStorage]] - [[AWSRedshift]] ← uses ← [[DataCompression]] - [[LeaderNode]] ← coordinates ← [[ComputeNode]] ## Contradictions - 与 [[CTP_Topic_66_ExposingDifferencesBetweenPostgreSQLRDSandAurora]] 潜在关系: - 冲突点:PostgreSQL RDS/Aurora 与 Redshift 在数据仓库场景下的取舍 - 当前观点:Redshift 专为 OLAP 设计(PB 级、列式存储、MPP) - 对方观点:PostgreSQL RDS/Aurora 适合混合 OLTP/OLAP 场景 - 说明:两者定位不同,但均用于数据存储与查询,需根据具体场景选择