Files
nexus/wiki/concepts/数据管道-Data-Pipeline.md
2026-04-17 22:17:27 +08:00

25 lines
1017 B
Markdown

---
title: "数据管道 (Data Pipeline)"
type: concept
tags: [automation, data-engineering]
last_updated: 2026-04-17
---
## Definition
自动化数据采集、清洗、转换和传递的工作流架构,将来自多个源头的数据按预定规则处理后输出到目标系统。
## Components
1. **采集层 (Collection)** — 从 RSS、API、Web 抓取等源头获取原始数据
2. **清洗层 (Cleaning)** — 过滤无效数据、规范化格式
3. **处理层 (Processing)** — 去重、评分、分类、聚合
4. **输出层 (Output)** — 推送至 Discord、邮件、Telegram 等目标
## Use Cases
- [[Multi-Source Tech News Digest]] — 四层数据管道聚合科技新闻
- [[Daily Reddit Digest]] — 定时从 Reddit 获取热门帖子
- [[电商数据采集系统]] — 多平台商品数据聚合
## Related Concepts
- [[Cron Jobs]] — 定时触发数据管道执行
- [[工作流自动化]] — 预定义的自动化处理流程
- [[去重算法]] — 数据管道中的重复内容过滤