Auto-sync: 2026-04-28 12:03

2026-04-28 12:03:10 +08:00
parent c898cc3fb9
commit f8b421ece6
45 changed files with 1739 additions and 1073 deletions
--- a/wiki/entities/Scrapy.md
+++ b/wiki/entities/Scrapy.md
@@ -0,0 +1,35 @@
+---
+title: "Scrapy"
+type: entity
+tags: [python, crawler, open-source]
+sources: [可自动化-可扩展-ai增强的电商数据采集与处理系统]
+last_updated: 2025-11-11
+---
+
+## Aliases
+- Scrapy Framework
+
+## Summary
+Python 编写的开源爬虫框架，适合结构化数据抓取、分页调度、媒体下载和分布式部署。
+
+## Description
+Scrapy 是一个基于 Python 的开源网页爬虫框架，提供完整的数据爬取流程支持：请求调度、内容解析、数据清洗、管道存储。
+
+### 核心特性
+- 异步架构，性能高效
+- 内置选择器（CSS/XPath）
+- 插件生态丰富（scrapy-playwright、scrapy-redis）
+- 支持分布式部署（Scrapyd、Scrapy Cluster）
+- 内置 `ImagesPipeline` 媒体下载
+
+### 电商场景适用性
+适合批量抓取电商产品信息（标题、价格、描述、图片 URL），输出 JSON/CSV 格式供后续处理。
+
+## Use Cases
+- [[可自动化-可扩展-ai增强的电商数据采集与处理系统]] — 数据采集层核心工具
+
+## Connections
+- [[Playwright]] — 动态页面渲染依赖
+- [[PostgreSQL]] — 数据存储目标
+- [[n8n]] — 自动化编排消费 Scrapy 输出
+