Update nexus: fix conflicts and sync local changes

2026-04-26 12:06:50 +08:00
parent 191797c01b
commit f09834b5a5
2443 changed files with 254323 additions and 255154 deletions
--- a/wiki/concepts/MPP.md
+++ b/wiki/concepts/MPP.md
@@ -1,40 +1,40 @@
---
-title: "MPP (Massively Parallel Processing)"
-type: concept
-tags:
-  - Distributed Computing
-  - Data-Warehouse
-  - Performance
-sources:
-  - ctp-topic-68-introduction-to-redshift
-last_updated: 2026-04-23
---
-
-## Overview
-MPP（大规模并行处理）是一种分布式计算架构，通过多个计算节点并行执行查询和数据处理任务，显著提升大规模数据集的查询速度和系统吞吐量。
-
-## How It Works
-1. **任务分解**：协调节点（Leader/Coordinator）将大型查询分解为多个子任务
-2. **并行分发**：子任务分发至多个计算节点（Compute Node）
-3. **独立执行**：各节点在本地数据子集（Slice/Partition）上并行执行计算
-4. **结果汇总**：各节点结果返回协调节点，进行最终聚合和输出
-
-## Key Benefits
- **线性扩展**：增加节点数量可线性提升查询性能
- **高吞吐量**：适合复杂分析查询和大规模数据聚合
- **容错性**：单节点故障不影响整体系统（部分实现）
-
-## Trade-offs
- **数据倾斜（Data Skew）**：数据分布不均导致部分节点负载过重
- **跨节点通信**：节点间数据传输增加延迟
- **复杂查询优化**：需精心设计数据分布策略
-
-## Applications
- **数据仓库**：Amazon Redshift、Snowflake、Google BigQuery
- **大数据处理**：Apache Spark（Spark SQL）、Presto/Trino
- **科学计算**：分布式矩阵运算、基因组分析
-
-## Related Concepts
- [[Columnar-Storage]]：列式存储与 MPP 协同优化分析查询
- [[Distribution-Key]]：数据分布策略影响 MPP 性能
- [[Sort-Key]]：排序键优化局部性，提升 MPP 节点内效率
+---
+title: "MPP (Massively Parallel Processing)"
+type: concept
+tags:
+  - Distributed Computing
+  - Data-Warehouse
+  - Performance
+sources:
+  - ctp-topic-68-introduction-to-redshift
+last_updated: 2026-04-23
+---
+
+## Overview
+MPP（大规模并行处理）是一种分布式计算架构，通过多个计算节点并行执行查询和数据处理任务，显著提升大规模数据集的查询速度和系统吞吐量。
+
+## How It Works
+1. **任务分解**：协调节点（Leader/Coordinator）将大型查询分解为多个子任务
+2. **并行分发**：子任务分发至多个计算节点（Compute Node）
+3. **独立执行**：各节点在本地数据子集（Slice/Partition）上并行执行计算
+4. **结果汇总**：各节点结果返回协调节点，进行最终聚合和输出
+
+## Key Benefits
+- **线性扩展**：增加节点数量可线性提升查询性能
+- **高吞吐量**：适合复杂分析查询和大规模数据聚合
+- **容错性**：单节点故障不影响整体系统（部分实现）
+
+## Trade-offs
+- **数据倾斜（Data Skew）**：数据分布不均导致部分节点负载过重
+- **跨节点通信**：节点间数据传输增加延迟
+- **复杂查询优化**：需精心设计数据分布策略
+
+## Applications
+- **数据仓库**：Amazon Redshift、Snowflake、Google BigQuery
+- **大数据处理**：Apache Spark（Spark SQL）、Presto/Trino
+- **科学计算**：分布式矩阵运算、基因组分析
+
+## Related Concepts
+- [[Columnar-Storage]]：列式存储与 MPP 协同优化分析查询
+- [[Distribution-Key]]：数据分布策略影响 MPP 性能
+- [[Sort-Key]]：排序键优化局部性，提升 MPP 节点内效率