Auto-sync: 2026-04-28 12:03
This commit is contained in:
35
wiki/entities/Scrapy.md
Normal file
35
wiki/entities/Scrapy.md
Normal file
@@ -0,0 +1,35 @@
|
||||
---
|
||||
title: "Scrapy"
|
||||
type: entity
|
||||
tags: [python, crawler, open-source]
|
||||
sources: [可自动化-可扩展-ai增强的电商数据采集与处理系统]
|
||||
last_updated: 2025-11-11
|
||||
---
|
||||
|
||||
## Aliases
|
||||
- Scrapy Framework
|
||||
|
||||
## Summary
|
||||
Python 编写的开源爬虫框架,适合结构化数据抓取、分页调度、媒体下载和分布式部署。
|
||||
|
||||
## Description
|
||||
Scrapy 是一个基于 Python 的开源网页爬虫框架,提供完整的数据爬取流程支持:请求调度、内容解析、数据清洗、管道存储。
|
||||
|
||||
### 核心特性
|
||||
- 异步架构,性能高效
|
||||
- 内置选择器(CSS/XPath)
|
||||
- 插件生态丰富(scrapy-playwright、scrapy-redis)
|
||||
- 支持分布式部署(Scrapyd、Scrapy Cluster)
|
||||
- 内置 `ImagesPipeline` 媒体下载
|
||||
|
||||
### 电商场景适用性
|
||||
适合批量抓取电商产品信息(标题、价格、描述、图片 URL),输出 JSON/CSV 格式供后续处理。
|
||||
|
||||
## Use Cases
|
||||
- [[可自动化-可扩展-ai增强的电商数据采集与处理系统]] — 数据采集层核心工具
|
||||
|
||||
## Connections
|
||||
- [[Playwright]] — 动态页面渲染依赖
|
||||
- [[PostgreSQL]] — 数据存储目标
|
||||
- [[n8n]] — 自动化编排消费 Scrapy 输出
|
||||
|
||||
Reference in New Issue
Block a user