nexus/wiki/concepts/电商数据采集.md

---
title: 电商数据采集
type: concept
tags: [scraper, e-commerce, data-pipeline]
sources: []
last_updated: 2026-04-15
---

## 定义
从电商平台（Amazon/淘宝/JD/Shopee 等）采集产品结构化信息（标题、价格、评分、图片、评论等），用于竞品分析、价格监控或市场研究。

## 采集字段
- title（标题）
- price（价格）
- rating（评分）
- image_urls（图片 URL）
- product_url（商品链接）
- 扩展字段：品牌、型号、类目、评论数、上架时间

## 技术栈
- **静态页面**：[Scrapy] 为主，高效结构化抓取
- **动态页面**：[Playwright] 渲染 JS 后采集
- **混合方案**：[scrapy-playwright] 插件，两者结合

## 防封策略
- User-Agent 轮换
- 代理池（[[BrightData]]/[[ScraperAPI]]）
- DOWNLOAD_DELAY + RANDOMIZE_DOWNLOAD_DELAY
- 分布式调度（Scrapyd 集群）

## 在 Wiki 中的角色
- [[可自动化可扩展AI增强的电商数据采集与处理系统]] 核心场景
- 采集结果 JSON/CSV → [[n8n Workflow自动化]] 消费处理