Auto-sync: 2026-04-17 22:17
This commit is contained in:
25
wiki/concepts/数据管道-Data-Pipeline.md
Normal file
25
wiki/concepts/数据管道-Data-Pipeline.md
Normal file
@@ -0,0 +1,25 @@
|
||||
---
|
||||
title: "数据管道 (Data Pipeline)"
|
||||
type: concept
|
||||
tags: [automation, data-engineering]
|
||||
last_updated: 2026-04-17
|
||||
---
|
||||
|
||||
## Definition
|
||||
自动化数据采集、清洗、转换和传递的工作流架构,将来自多个源头的数据按预定规则处理后输出到目标系统。
|
||||
|
||||
## Components
|
||||
1. **采集层 (Collection)** — 从 RSS、API、Web 抓取等源头获取原始数据
|
||||
2. **清洗层 (Cleaning)** — 过滤无效数据、规范化格式
|
||||
3. **处理层 (Processing)** — 去重、评分、分类、聚合
|
||||
4. **输出层 (Output)** — 推送至 Discord、邮件、Telegram 等目标
|
||||
|
||||
## Use Cases
|
||||
- [[Multi-Source Tech News Digest]] — 四层数据管道聚合科技新闻
|
||||
- [[Daily Reddit Digest]] — 定时从 Reddit 获取热门帖子
|
||||
- [[电商数据采集系统]] — 多平台商品数据聚合
|
||||
|
||||
## Related Concepts
|
||||
- [[Cron Jobs]] — 定时触发数据管道执行
|
||||
- [[工作流自动化]] — 预定义的自动化处理流程
|
||||
- [[去重算法]] — 数据管道中的重复内容过滤
|
||||
Reference in New Issue
Block a user