25 lines
1017 B
Markdown
25 lines
1017 B
Markdown
---
|
|
title: "数据管道 (Data Pipeline)"
|
|
type: concept
|
|
tags: [automation, data-engineering]
|
|
last_updated: 2026-04-17
|
|
---
|
|
|
|
## Definition
|
|
自动化数据采集、清洗、转换和传递的工作流架构,将来自多个源头的数据按预定规则处理后输出到目标系统。
|
|
|
|
## Components
|
|
1. **采集层 (Collection)** — 从 RSS、API、Web 抓取等源头获取原始数据
|
|
2. **清洗层 (Cleaning)** — 过滤无效数据、规范化格式
|
|
3. **处理层 (Processing)** — 去重、评分、分类、聚合
|
|
4. **输出层 (Output)** — 推送至 Discord、邮件、Telegram 等目标
|
|
|
|
## Use Cases
|
|
- [[Multi-Source Tech News Digest]] — 四层数据管道聚合科技新闻
|
|
- [[Daily Reddit Digest]] — 定时从 Reddit 获取热门帖子
|
|
- [[电商数据采集系统]] — 多平台商品数据聚合
|
|
|
|
## Related Concepts
|
|
- [[Cron Jobs]] — 定时触发数据管道执行
|
|
- [[工作流自动化]] — 预定义的自动化处理流程
|
|
- [[去重算法]] — 数据管道中的重复内容过滤 |