1.1 KiB
1.1 KiB
title, type, tags, sources, last_updated
| title | type | tags | sources | last_updated | ||||
|---|---|---|---|---|---|---|---|---|
| Scrapy | entity |
|
|
2025-11-11 |
Aliases
- Scrapy Framework
Summary
Python 编写的开源爬虫框架,适合结构化数据抓取、分页调度、媒体下载和分布式部署。
Description
Scrapy 是一个基于 Python 的开源网页爬虫框架,提供完整的数据爬取流程支持:请求调度、内容解析、数据清洗、管道存储。
核心特性
- 异步架构,性能高效
- 内置选择器(CSS/XPath)
- 插件生态丰富(scrapy-playwright、scrapy-redis)
- 支持分布式部署(Scrapyd、Scrapy Cluster)
- 内置
ImagesPipeline媒体下载
电商场景适用性
适合批量抓取电商产品信息(标题、价格、描述、图片 URL),输出 JSON/CSV 格式供后续处理。
Use Cases
- 可自动化-可扩展-ai增强的电商数据采集与处理系统 — 数据采集层核心工具
Connections
- Playwright — 动态页面渲染依赖
- PostgreSQL — 数据存储目标
- n8n — 自动化编排消费 Scrapy 输出