Files
nexus/wiki/entities/Scrapy.md
2026-04-28 12:03:10 +08:00

36 lines
1.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Scrapy"
type: entity
tags: [python, crawler, open-source]
sources: [可自动化-可扩展-ai增强的电商数据采集与处理系统]
last_updated: 2025-11-11
---
## Aliases
- Scrapy Framework
## Summary
Python 编写的开源爬虫框架,适合结构化数据抓取、分页调度、媒体下载和分布式部署。
## Description
Scrapy 是一个基于 Python 的开源网页爬虫框架,提供完整的数据爬取流程支持:请求调度、内容解析、数据清洗、管道存储。
### 核心特性
- 异步架构,性能高效
- 内置选择器CSS/XPath
- 插件生态丰富scrapy-playwright、scrapy-redis
- 支持分布式部署Scrapyd、Scrapy Cluster
- 内置 `ImagesPipeline` 媒体下载
### 电商场景适用性
适合批量抓取电商产品信息(标题、价格、描述、图片 URL输出 JSON/CSV 格式供后续处理。
## Use Cases
- [[可自动化-可扩展-ai增强的电商数据采集与处理系统]] — 数据采集层核心工具
## Connections
- [[Playwright]] — 动态页面渲染依赖
- [[PostgreSQL]] — 数据存储目标
- [[n8n]] — 自动化编排消费 Scrapy 输出