Update nexus: fix conflicts and sync local changes
This commit is contained in:
@@ -1,40 +1,40 @@
|
||||
---
|
||||
title: "MPP (Massively Parallel Processing)"
|
||||
type: concept
|
||||
tags:
|
||||
- Distributed Computing
|
||||
- Data-Warehouse
|
||||
- Performance
|
||||
sources:
|
||||
- ctp-topic-68-introduction-to-redshift
|
||||
last_updated: 2026-04-23
|
||||
---
|
||||
|
||||
## Overview
|
||||
MPP(大规模并行处理)是一种分布式计算架构,通过多个计算节点并行执行查询和数据处理任务,显著提升大规模数据集的查询速度和系统吞吐量。
|
||||
|
||||
## How It Works
|
||||
1. **任务分解**:协调节点(Leader/Coordinator)将大型查询分解为多个子任务
|
||||
2. **并行分发**:子任务分发至多个计算节点(Compute Node)
|
||||
3. **独立执行**:各节点在本地数据子集(Slice/Partition)上并行执行计算
|
||||
4. **结果汇总**:各节点结果返回协调节点,进行最终聚合和输出
|
||||
|
||||
## Key Benefits
|
||||
- **线性扩展**:增加节点数量可线性提升查询性能
|
||||
- **高吞吐量**:适合复杂分析查询和大规模数据聚合
|
||||
- **容错性**:单节点故障不影响整体系统(部分实现)
|
||||
|
||||
## Trade-offs
|
||||
- **数据倾斜(Data Skew)**:数据分布不均导致部分节点负载过重
|
||||
- **跨节点通信**:节点间数据传输增加延迟
|
||||
- **复杂查询优化**:需精心设计数据分布策略
|
||||
|
||||
## Applications
|
||||
- **数据仓库**:Amazon Redshift、Snowflake、Google BigQuery
|
||||
- **大数据处理**:Apache Spark(Spark SQL)、Presto/Trino
|
||||
- **科学计算**:分布式矩阵运算、基因组分析
|
||||
|
||||
## Related Concepts
|
||||
- [[Columnar-Storage]]:列式存储与 MPP 协同优化分析查询
|
||||
- [[Distribution-Key]]:数据分布策略影响 MPP 性能
|
||||
- [[Sort-Key]]:排序键优化局部性,提升 MPP 节点内效率
|
||||
---
|
||||
title: "MPP (Massively Parallel Processing)"
|
||||
type: concept
|
||||
tags:
|
||||
- Distributed Computing
|
||||
- Data-Warehouse
|
||||
- Performance
|
||||
sources:
|
||||
- ctp-topic-68-introduction-to-redshift
|
||||
last_updated: 2026-04-23
|
||||
---
|
||||
|
||||
## Overview
|
||||
MPP(大规模并行处理)是一种分布式计算架构,通过多个计算节点并行执行查询和数据处理任务,显著提升大规模数据集的查询速度和系统吞吐量。
|
||||
|
||||
## How It Works
|
||||
1. **任务分解**:协调节点(Leader/Coordinator)将大型查询分解为多个子任务
|
||||
2. **并行分发**:子任务分发至多个计算节点(Compute Node)
|
||||
3. **独立执行**:各节点在本地数据子集(Slice/Partition)上并行执行计算
|
||||
4. **结果汇总**:各节点结果返回协调节点,进行最终聚合和输出
|
||||
|
||||
## Key Benefits
|
||||
- **线性扩展**:增加节点数量可线性提升查询性能
|
||||
- **高吞吐量**:适合复杂分析查询和大规模数据聚合
|
||||
- **容错性**:单节点故障不影响整体系统(部分实现)
|
||||
|
||||
## Trade-offs
|
||||
- **数据倾斜(Data Skew)**:数据分布不均导致部分节点负载过重
|
||||
- **跨节点通信**:节点间数据传输增加延迟
|
||||
- **复杂查询优化**:需精心设计数据分布策略
|
||||
|
||||
## Applications
|
||||
- **数据仓库**:Amazon Redshift、Snowflake、Google BigQuery
|
||||
- **大数据处理**:Apache Spark(Spark SQL)、Presto/Trino
|
||||
- **科学计算**:分布式矩阵运算、基因组分析
|
||||
|
||||
## Related Concepts
|
||||
- [[Columnar-Storage]]:列式存储与 MPP 协同优化分析查询
|
||||
- [[Distribution-Key]]:数据分布策略影响 MPP 性能
|
||||
- [[Sort-Key]]:排序键优化局部性,提升 MPP 节点内效率
|
||||
|
||||
Reference in New Issue
Block a user