Auto-sync: 2026-04-28 20:03

This commit is contained in:
2026-04-28 20:03:11 +08:00
parent c51cc4c58b
commit f71229f0c3
94 changed files with 2752 additions and 1295 deletions

View File

@@ -13,51 +13,51 @@ date: 2026-04-14
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/01_AWS-Landing-Zone/ctp-topic-68-introduction-to-redshift.md]]
## Summary用中文描述
- 核心主题AWS Redshift 数据仓库服务的基础架构、核心组件及关键特性
- 问题域:云端 PB 级数据仓库的选型与架构设计
- 方法/机制Leader Node + Compute Node MPP 并行架构、列式存储行式存储、数据压缩ZSTD/LZO、Sort KeyDistribution Key
- 结论/价值Redshift 是完全托管的 PB 级云数据仓库,支持 OLAP提供 Leader Node 负责查询规划和元数据管理Compute Node 通过 Slices 执行并行查询RA3 实例类型性价比最优,支持 AWS 托管 NVMe 存储Sort Key 和 Dist Key 是性能优化的关键配置
- 核心主题AWS Redshift 数据仓库架构、核心组件及关键特性
- 问题域:企业级云数据仓库设计与选型
- 方法/机制:Redshift 集群架构(Leader Node + Compute Node、列式存储 vs 行式存储、MPP 大规模并行处理、数据压缩、Sort KeyDist Key 优化
- 结论/价值Redshift 是完全托管的 PB 级云数据仓库解决方案,专为 OLAP 场景设计,提供快速安装、自动备份、点时间恢复及跨区域灾难恢复能力
## Key Claims用中文描述
- Redshift 通过 Leader Node 管理 Schema、元数据和查询计划将指令分发至 Compute Node 执行,实现 MPP大规模并行处理显著提升查询速度和响应时间
- Redshift 支持列式存储(适合数据仓库操作)和行式存储两种模式,列式存储因更快的查询性能和更高的内存利用率而更适合 OLAP 场景
- RA3 实例类型因其成本效益和大规模存储容量而被推荐,底层使用 AWS 托管的 NVMe 存储
- Sort Key排序键和 Dist Key分布键是 Redshift 性能优化的核心机制,决定数据分布和查询执行效率
- Redshift 通过 Leader Node 管理 Schema、元数据和查询计划 Compute Node 在各 Slice 上并行执行查询,实现高速数据检索
- Redshift 支持三种实例类型Dense Compute、Dense Storage、RA3RA3 以 AWS 托管 NVMe 存储提供成本效益和大规模存储容量
- MPP大规模并行处理通过跨多个 Compute Node 并行处理查询,显著提升查询速度和响应时间
- 列式存储专为数据仓库操作优化,相比行式存储具有更快的查询性能和更高的内存使用效率
- Sort Key 和 Dist Key 在优化查询性能和管理 Compute Node 间数据分布方面起关键作用
## Key Quotes
> "Redshift is a fully managed, petabyte-scale data warehouse solution in the cloud. It is designed for data warehousing, enabling quick data retrieval from large datasets." — 视频摘要
> "The leader node manages schema, warehouse metadata, and query planning, distributing instructions to compute nodes." — Redshift 架构说明
> "Compute nodes, determined by the instance type, execute queries across slices, processing data and returning results to the leader node." — Compute Node 工作机制
> "RA3 is noted for its cost-effectiveness and large storage capacity, utilizing AWS-managed NVMe storage." — RA3 实例优势
> "Redshift is a fully managed, petabyte-scale data warehouse solution in the cloud. It is designed for data warehousing, enabling quick data retrieval from large datasets." — Redshift 核心定位
> "The leader node manages schema, warehouse metadata, and query planning, distributing instructions to compute nodes." — 架构职责划分
> "RA3 is noted for its cost-effectiveness and large storage capacity, utilizing AWS-managed NVMe storage." — RA3 实例特点
## Key Concepts
- [[MPP (Massively Parallel Processing)]]通过多个 Compute Node 并行处理查询,提升大规模数据集的查询速度和响应时间
- [[列式存储(Columnar Storage)]]数据按列而非按行存储,适合数据仓库的聚合查询和扫描操作,提供更快的查询性能和更高的内存效率
- [[数据压缩Data Compression)]]:采用 ZSTD/LZO 等压缩算法减少数据大小,提升 I/O 效率和查询性能
- [[Sort Key排序键)]]:决定数据在磁盘上的物理排序顺序,对范围查询和过滤操作性能影响显著
- [[Distribution Key分布键)]]:决定数据在 Compute Node 间如何分布,影响数据倾斜和节点间数据传输
- [[OLAP在线分析处理)]]面向复杂分析查询的工作负载类型Redshift 的核心设计目标
- [[Leader Node主节点)]]Redshift 架构中的协调节点负责客户端连接、Schema 管理、元数据存储和查询计划生成
- [[Compute Node计算节点)]]Redshift 架构中的执行节点,负责在 Slices 上执行查询并返回结果
- [[MassivelyParallelProcessing]]跨多个计算节点并行处理查询,提升查询速度和响应时间
- [[ColumnarStorage]]列式存储,专为数据仓库操作优化,具有更快的查询性能和更高的内存使用效率
- [[RowBasedStorage]]:行式存储,适用于事务性操作
- [[DataCompression]]:数据压缩技术(如 LZO减少数据大小以提升性能
- [[SortKey]]:排序键,用于优化查询和管理 Compute Node 间数据分布
- [[DistributionKey]]分布键Dist Key决定数据在 Compute Node 间的分布方式
- [[SliceArchitecture]]Compute Node 内部的数据处理单元,每个 Slice 独立执行查询片段
- [[OLAP]]在线分析处理Redshift 的主要工作负载类型
## Key Entities
- [[Amazon Redshift]]AWS 提供的大规模并行处理数据仓库服务,支持 PB 级数据存储,面向 OLAP 工作负载
- [[AWS]]Amazon Web Services云服务提供商Redshift 的托管平台
- [[RA3]]Redshift 的高性价比实例类型,配备 AWS 托管 NVMe 存储,适合大容量存储场景
- [[Dense Compute]]Redshift 高计算密度实例类型,适合计算密集型查询
- [[Dense Storage]]Redshift 高存储密度实例类型,适合存储密集型工作负载
- [[JDBC/ODBC]]Redshift 客户端驱动协议,客户端应用通过 JDBC/ODBC 连接至 Redshift Cluster
- [[AWSRedshift]]AWS 提供的大规模并行数据仓库服务,完全托管,支持 PB 级数据
- [[LeaderNode]]Redshift 集群中的协调节点,负责 Schema 管理、元数据维护和查询规划
- [[ComputeNode]]Redshift 集群中的计算节点,负责在 Slice 上执行查询并返回结果
- [[JDBC]]Java 数据库连接协议Redshift 客户端连接方式之一
- [[ODBC]]开放数据库连接协议Redshift 客户端连接方式之一
- [[AWSManagedNVMe]]RA3 实例使用的 AWS 托管 NVMe 存储,提供高性能和成本效益
## Connections
- [[ctp-topic-51-purpose-built-databases]] ← related_to ← [[Amazon Redshift]]
- [[ctp-topic-66-rds-vs-aurora]] ← related_to ← [[Amazon Redshift]]
- [[ctp-topic-40-saas-database-architecture-on-aws-cloud]] ← related_to ← [[Amazon Redshift]]
- [[CTP_Topic_58_AWS_EC2_Image_Builder]] ← topic_related ← [[AWSRedshift]](同属 AWS Landing Zone 学习系列)
- [[AWSRedshift]] ← uses ← [[MassivelyParallelProcessing]]
- [[AWSRedshift]] ← uses ← [[ColumnarStorage]]
- [[AWSRedshift]] ← uses ← [[DataCompression]]
- [[LeaderNode]] ← coordinates ← [[ComputeNode]]
## Contradictions
- 与 [[ctp-topic-66-rds-vs-aurora]] 的数据写入模式
- 冲突点:Aurora 采用共享存储架构6副本跨3 AZ而 Redshift 采用独立 Compute Node 架构Aurora 更适合写入密集型 OLTPRedshift 更适合分析密集型 OLAP
- 当前观点Redshift 的列式存储 + MPP 是大规模数据分析的最优架构
- 对方观点:Aurora 的共享存储简化了 HA 和 DR且 Blue-Green 部署支持更灵活
- 与 [[CTP_Topic_66_ExposingDifferencesBetweenPostgreSQLRDSandAurora]] 潜在关系
- 冲突点:PostgreSQL RDS/Aurora 与 Redshift 在数据仓库场景下的取舍
- 当前观点Redshift 专为 OLAP 设计PB 级、列式存储、MPP
- 对方观点:PostgreSQL RDS/Aurora 适合混合 OLTP/OLAP 场景
- 说明:两者定位不同,但均用于数据存储与查询,需根据具体场景选择