--- title: "数据管道 (Data Pipeline)" type: concept tags: [automation, data-engineering] last_updated: 2026-04-17 --- ## Definition 自动化数据采集、清洗、转换和传递的工作流架构,将来自多个源头的数据按预定规则处理后输出到目标系统。 ## Components 1. **采集层 (Collection)** — 从 RSS、API、Web 抓取等源头获取原始数据 2. **清洗层 (Cleaning)** — 过滤无效数据、规范化格式 3. **处理层 (Processing)** — 去重、评分、分类、聚合 4. **输出层 (Output)** — 推送至 Discord、邮件、Telegram 等目标 ## Use Cases - [[Multi-Source Tech News Digest]] — 四层数据管道聚合科技新闻 - [[Daily Reddit Digest]] — 定时从 Reddit 获取热门帖子 - [[电商数据采集系统]] — 多平台商品数据聚合 ## Related Concepts - [[Cron Jobs]] — 定时触发数据管道执行 - [[工作流自动化]] — 预定义的自动化处理流程 - [[去重算法]] — 数据管道中的重复内容过滤