nexus/wiki/entities/Scrapy.md at b40abbcd473a7093d8261e212e3d6de97c1e516a - nexus - Gitea: Git with a cup of tea

ishenwei/nexus

Files

weishen f8b421ece6 Auto-sync: 2026-04-28 12:03

2026-04-28 12:03:10 +08:00

1.1 KiB

Raw Blame History

title, type, tags, sources, last_updated

title

type

tags

sources

last_updated

Scrapy

entity

python

crawler

open-source

可自动化-可扩展-ai增强的电商数据采集与处理系统

2025-11-11

Aliases

Scrapy Framework

Summary

Python 编写的开源爬虫框架，适合结构化数据抓取、分页调度、媒体下载和分布式部署。

Description

Scrapy 是一个基于 Python 的开源网页爬虫框架，提供完整的数据爬取流程支持：请求调度、内容解析、数据清洗、管道存储。

核心特性

异步架构，性能高效
内置选择器（CSS/XPath）
插件生态丰富（scrapy-playwright、scrapy-redis）
支持分布式部署（Scrapyd、Scrapy Cluster）
内置 ImagesPipeline 媒体下载

电商场景适用性

适合批量抓取电商产品信息（标题、价格、描述、图片 URL），输出 JSON/CSV 格式供后续处理。

Use Cases

可自动化-可扩展-ai增强的电商数据采集与处理系统 — 数据采集层核心工具

Connections

Playwright — 动态页面渲染依赖
PostgreSQL — 数据存储目标
n8n — 自动化编排消费 Scrapy 输出