---
title: "CTP Topic 68 Introduction to Redshift"
type: source
tags: [AWS, Redshift, Data-Warehouse, CTP]
sources: []
last_updated: 2026-04-14
---

## Source File
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/01_AWS-Landing-Zone/ctp-topic-68-introduction-to-redshift.md]]

## Summary

- 核心主题：AWS Redshift 数据仓库架构与核心组件
- 问题域：云端数据仓库服务、数据仓库架构设计
- 方法/机制：MPP 并行处理、列式存储、数据压缩、Sort Key、Dist Key
- 结论/价值：Redshift 是完全托管的 PB 级云端数据仓库解决方案，支持 OLAP，提供易用的安装维护、备份恢复和跨区域灾备

## Key Claims

- Redshift 是一种完全托管的 PB 级云端数据仓库服务，专为数据仓库场景设计，支持 OLAP（在线分析处理）
- Redshift 架构包含 Leader Node（领导节点）和 Compute Node（计算节点），Leader 节点负责 schema 管理、元数据和查询规划，计算节点执行查询
- RA3 实例类型使用 AWS 托管的 NVMe 存储，具有成本效益和大存储容量
- MPP（大规模并行处理）使查询能够跨多个计算节点并行处理，提升查询速度和响应时间
- 列式存储针对数据仓库操作进行了性能优化，相比行式存储具有更快的性能和更低的内存占用
- Sort Key 和 Dist Key 在优化查询性能和管理计算节点间数据分布方面起关键作用

## Key Quotes

> "Redshift is a fully managed, petabyte-scale data warehouse solution in the cloud. It is designed for data warehousing, enabling quick data retrieval from large datasets." — 视频摘要

> "The leader node manages schema, warehouse metadata, and query planning, distributes instructions to compute nodes." — 视频摘要

> "The leader node then stores results in buffers for quick retrieval, enhancing performance." — 视频摘要

## Key Concepts

- [[MPP]]：大规模并行处理，使查询跨多个计算节点并行处理
- [[列式存储]]：针对数据仓库操作优化的存储方式，提高查询性能
- [[Sort-Key]]：排序键，决定数据在磁盘上的物理排序顺序
- [[Dist-Key]]：分布键，决定数据在计算节点间的分布方式
- [[数据压缩]]：Redshift 支持多种压缩编码（如 LZO），减少存储空间和 I/O
- [[OLAP]]：在线分析处理，用于复杂查询和数据分析

## Key Entities

- [[AWS]]：Amazon Web Services，Redshift 数据仓库服务提供商
- [[AWS-Redshift]]：Amazon Redshift，PB 级云端数据仓库服务
- [[Leader-Node]]：领导节点，Redshift 集群的管理节点
- [[Compute-Node]]：计算节点，执行实际查询的节点

## Connections

- [[AWS]] → provides → [[AWS-Redshift]]
- [[AWS-Redshift]] → uses → [[Leader-Node]]
- [[AWS-Redshift]] → uses → [[Compute-Node]]
- [[Compute-Node]] → supports → [[MPP]]
- [[列式存储]] → optimizes → [[AWS-Redshift]]

## Contradictions

- 暂无