Files
nexus/wiki/sources/ctp-topic-68-introduction-to-redshift.md
2026-04-28 20:03:11 +08:00

64 lines
4.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "CTP Topic 68 Introduction to Redshift"
type: source
tags:
- AWS
- Redshift
- Data-Warehouse
- CTP
date: 2026-04-14
---
## Source File
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/01_AWS-Landing-Zone/ctp-topic-68-introduction-to-redshift.md]]
## Summary用中文描述
- 核心主题AWS Redshift 数据仓库的架构、核心组件及关键特性
- 问题域:企业级云数据仓库设计与选型
- 方法/机制Redshift 集群架构Leader Node + Compute Node、列式存储 vs 行式存储、MPP 大规模并行处理、数据压缩、Sort Key 与 Dist Key 优化
- 结论/价值Redshift 是完全托管的 PB 级云数据仓库解决方案,专为 OLAP 场景设计,提供快速安装、自动备份、点时间恢复及跨区域灾难恢复能力
## Key Claims用中文描述
- Redshift 通过 Leader Node 管理 Schema、元数据和查询计划由 Compute Node 在各 Slice 上并行执行查询,实现高速数据检索
- Redshift 支持三种实例类型Dense Compute、Dense Storage、RA3RA3 以 AWS 托管 NVMe 存储提供成本效益和大规模存储容量
- MPP大规模并行处理通过跨多个 Compute Node 并行处理查询,显著提升查询速度和响应时间
- 列式存储专为数据仓库操作优化,相比行式存储具有更快的查询性能和更高的内存使用效率
- Sort Key 和 Dist Key 在优化查询性能和管理 Compute Node 间数据分布方面起关键作用
## Key Quotes
> "Redshift is a fully managed, petabyte-scale data warehouse solution in the cloud. It is designed for data warehousing, enabling quick data retrieval from large datasets." — Redshift 核心定位
> "The leader node manages schema, warehouse metadata, and query planning, distributing instructions to compute nodes." — 架构职责划分
> "RA3 is noted for its cost-effectiveness and large storage capacity, utilizing AWS-managed NVMe storage." — RA3 实例特点
## Key Concepts
- [[MassivelyParallelProcessing]]:跨多个计算节点并行处理查询,提升查询速度和响应时间
- [[ColumnarStorage]]:列式存储,专为数据仓库操作优化,具有更快的查询性能和更高的内存使用效率
- [[RowBasedStorage]]:行式存储,适用于事务性操作
- [[DataCompression]]:数据压缩技术(如 LZO减少数据大小以提升性能
- [[SortKey]]:排序键,用于优化查询和管理 Compute Node 间数据分布
- [[DistributionKey]]分布键Dist Key决定数据在 Compute Node 间的分布方式
- [[SliceArchitecture]]Compute Node 内部的数据处理单元,每个 Slice 独立执行查询片段
- [[OLAP]]在线分析处理Redshift 的主要工作负载类型
## Key Entities
- [[AWSRedshift]]AWS 提供的大规模并行云数据仓库服务,完全托管,支持 PB 级数据
- [[LeaderNode]]Redshift 集群中的协调节点,负责 Schema 管理、元数据维护和查询规划
- [[ComputeNode]]Redshift 集群中的计算节点,负责在 Slice 上执行查询并返回结果
- [[JDBC]]Java 数据库连接协议Redshift 客户端连接方式之一
- [[ODBC]]开放数据库连接协议Redshift 客户端连接方式之一
- [[AWSManagedNVMe]]RA3 实例使用的 AWS 托管 NVMe 存储,提供高性能和成本效益
## Connections
- [[CTP_Topic_58_AWS_EC2_Image_Builder]] ← topic_related ← [[AWSRedshift]](同属 AWS Landing Zone 学习系列)
- [[AWSRedshift]] ← uses ← [[MassivelyParallelProcessing]]
- [[AWSRedshift]] ← uses ← [[ColumnarStorage]]
- [[AWSRedshift]] ← uses ← [[DataCompression]]
- [[LeaderNode]] ← coordinates ← [[ComputeNode]]
## Contradictions
- 与 [[CTP_Topic_66_ExposingDifferencesBetweenPostgreSQLRDSandAurora]] 潜在关系:
- 冲突点PostgreSQL RDS/Aurora 与 Redshift 在数据仓库场景下的取舍
- 当前观点Redshift 专为 OLAP 设计PB 级、列式存储、MPP
- 对方观点PostgreSQL RDS/Aurora 适合混合 OLTP/OLAP 场景
- 说明:两者定位不同,但均用于数据存储与查询,需根据具体场景选择