nexus/wiki/sources/可自动化-可扩展-ai增强的电商数据采集与处理系统.md at e907ba8c5fed806161a85bcb6c786b30c155b137

ishenwei/nexus

Fork 0

Files

weishen e907ba8c5f Auto-sync: 2026-04-23 16:02

2026-04-23 16:02:56 +08:00

3.8 KiB

Raw Blame History

title, type, tags, date

title

type

Source File

raw/Others/可自动化、可扩展、AI增强的电商数据采集与处理系统.md

Summary（用中文描述）

核心主题：基于 Docker + Ubuntu + n8n 构建可自动化、可扩展、AI增强的电商数据采集与处理系统
问题域：电商数据爬取效率低、AI处理缺失、缺乏自动化管线
方法/机制：三层架构（爬虫层→AI处理层→存储展示层）；Scrapy+Playwright组合抓取动态页面；n8n工作流编排自动化；Docker Compose容器化部署
结论/价值：提供完整的开源技术栈方案，实现从爬取到AI分析的全链路自动化

Key Claims（用中文描述）

Scrapy 负责结构化抓取、分页调度、媒体下载；Playwright 负责加载动态页面；两者通过 Docker Compose 容器化，输出 JSON/CSV 供 n8n 消费
n8n 工作流可实现定时启动爬虫→读取JSON→调用LLM提取属性→写入数据库→生成报表通知的全链路自动化
AI 处理任务包括：内容摘要分类、多语言翻译、特征提取（品牌/价格/类别）、异常检测（异常价格/缺图产品）、结构化JSON输出
本地可使用 Ollama（Mistral/Llama3）通过 HTTP Request 调用本地 API，无需外部 API Key
防封策略：User-Agent轮换、代理池（BrightData/ScraperAPI）、下载延迟+随机化访问、分布式调度（Scrapyd/Scrapy集群）

Key Quotes

"Scrapy + Playwright（或 Crawlee + Playwright）" — 推荐爬虫工具组合 "在 n8n 中可以通过 workflow 实现整个管线自动化" — n8n 自动化核心理念 "可以本地使用 Ollama (Mistral, Llama3) 模型，通过 n8n 的 HTTP Request 调用本地 http://localhost:11434/api/generate" — 本地AI处理方案

Key Concepts

Scrapy：Python 爬虫框架，擅长结构化抓取、分页调度和媒体下载
Playwright：浏览器自动化工具，支持 JS 渲染页面和无头模式
scrapy-playwright：让 Scrapy 调用 Playwright 渲染动态页面的插件
n8n：开源工作流自动化平台，支持 Trigger/Action/AI 节点编排
Docker Compose：容器化编排工具，定义和运行多容器应用
Ollama：本地 LLM 运行框架，支持 Mistral/Llama3 等模型
LangChain：结合 Vector DB（Qdrant/Milvus）存储产品语义信息
Bright Data：商业代理池服务，用于爬虫防封
Scrapyd：Scrapy 分布式部署集群管理工具
MinIO：S3 兼容对象存储，用于存储图片和视频
Grafana：可视化平台，生成电商趋势与分析报表
Metabase：开源 BI 工具，连接数据库生成分析报表
FastAPI：Python Web 框架，用于暴露 REST API 给前端或 BI 工具

Key Entities

Amazon：电商平台示例，Scrapy 爬虫的目标站点
JD（京东）：电商平台示例
Taobao（淘宝）：电商平台示例
Shopee：电商平台示例，提供公开 API
Scrapy 社区：开源爬虫框架生态

Connections

Scrapy ← 核心爬虫 ← scrapy-playwright
scrapy-playwright ← 集成 → Playwright
n8n ← 编排自动化 ← Docker Compose
Docker Compose ← 容器化 ← Scrapy + Playwright
Ollama ← 本地 LLM ← n8n HTTP Request Node
Bright Data ← 代理池 ← 防封策略
Metabase ← 数据可视化 ← PostgreSQL/SQLite
MinIO ← 对象存储 ← 图片/视频存储

Contradictions

无已知冲突内容

起步路径

在 Ubuntu 上安装 Docker + Docker Compose
启动基础环境：scrapy + playwright + n8n
选择 1–2 个电商站点（Amazon / JD / Taobao）
构建 Scrapy 爬虫模板
用 n8n 处理数据并测试 AI 工作流
逐步扩展至全自动管线

3.8 KiB Raw Blame History Unescape Escape

Source File

Summary（用中文描述）

Key Claims（用中文描述）

Key Quotes

Key Concepts

Key Entities

Connections

Contradictions

起步路径

3.8 KiB

Raw Blame History