--- title: "CTP Topic 68 Introduction to Redshift" type: source tags: [AWS, Redshift, Data-Warehouse, CTP] sources: [] last_updated: 2026-04-14 --- ## Source File - [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/01_AWS-Landing-Zone/ctp-topic-68-introduction-to-redshift.md]] ## Summary - 核心主题:AWS Redshift 数据仓库架构与核心组件 - 问题域:云端数据仓库服务、数据仓库架构设计 - 方法/机制:MPP 并行处理、列式存储、数据压缩、Sort Key、Dist Key - 结论/价值:Redshift 是完全托管的 PB 级云端数据仓库解决方案,支持 OLAP,提供易用的安装维护、备份恢复和跨区域灾备 ## Key Claims - Redshift 是一种完全托管的 PB 级云端数据仓库服务,专为数据仓库场景设计,支持 OLAP(在线分析处理) - Redshift 架构包含 Leader Node(领导节点)和 Compute Node(计算节点),Leader 节点负责 schema 管理、元数据和查询规划,计算节点执行查询 - RA3 实例类型使用 AWS 托管的 NVMe 存储,具有成本效益和大存储容量 - MPP(大规模并行处理)使查询能够跨多个计算节点并行处理,提升查询速度和响应时间 - 列式存储针对数据仓库操作进行了性能优化,相比行式存储具有更快的性能和更低的内存占用 - Sort Key 和 Dist Key 在优化查询性能和管理计算节点间数据分布方面起关键作用 ## Key Quotes > "Redshift is a fully managed, petabyte-scale data warehouse solution in the cloud. It is designed for data warehousing, enabling quick data retrieval from large datasets." — 视频摘要 > "The leader node manages schema, warehouse metadata, and query planning, distributes instructions to compute nodes." — 视频摘要 > "The leader node then stores results in buffers for quick retrieval, enhancing performance." — 视频摘要 ## Key Concepts - [[MPP]]:大规模并行处理,使查询跨多个计算节点并行处理 - [[列式存储]]:针对数据仓库操作优化的存储方式,提高查询性能 - [[Sort-Key]]:排序键,决定数据在磁盘上的物理排序顺序 - [[Dist-Key]]:分布键,决定数据在计算节点间的分布方式 - [[数据压缩]]:Redshift 支持多种压缩编码(如 LZO),减少存储空间和 I/O - [[OLAP]]:在线分析处理,用于复杂查询和数据分析 ## Key Entities - [[AWS]]:Amazon Web Services,Redshift 数据仓库服务提供商 - [[AWS-Redshift]]:Amazon Redshift,PB 级云端数据仓库服务 - [[Leader-Node]]:领导节点,Redshift 集群的管理节点 - [[Compute-Node]]:计算节点,执行实际查询的节点 ## Connections - [[AWS]] → provides → [[AWS-Redshift]] - [[AWS-Redshift]] → uses → [[Leader-Node]] - [[AWS-Redshift]] → uses → [[Compute-Node]] - [[Compute-Node]] → supports → [[MPP]] - [[列式存储]] → optimizes → [[AWS-Redshift]] ## Contradictions - 暂无