Files
nexus/wiki/sources/可自动化-可扩展-ai增强的电商数据采集与处理系统.md
2026-04-23 16:02:56 +08:00

71 lines
3.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "可自动化、可扩展、AI增强的电商数据采集与处理系统"
type: source
tags: []
date: 2025-11-11
---
## Source File
- [[raw/Others/可自动化、可扩展、AI增强的电商数据采集与处理系统.md]]
## Summary用中文描述
- 核心主题:基于 Docker + Ubuntu + n8n 构建可自动化、可扩展、AI增强的电商数据采集与处理系统
- 问题域电商数据爬取效率低、AI处理缺失、缺乏自动化管线
- 方法/机制三层架构爬虫层→AI处理层→存储展示层Scrapy+Playwright组合抓取动态页面n8n工作流编排自动化Docker Compose容器化部署
- 结论/价值提供完整的开源技术栈方案实现从爬取到AI分析的全链路自动化
## Key Claims用中文描述
- Scrapy 负责结构化抓取、分页调度、媒体下载Playwright 负责加载动态页面;两者通过 Docker Compose 容器化,输出 JSON/CSV 供 n8n 消费
- n8n 工作流可实现定时启动爬虫→读取JSON→调用LLM提取属性→写入数据库→生成报表通知的全链路自动化
- AI 处理任务包括:内容摘要分类、多语言翻译、特征提取(品牌/价格/类别)、异常检测(异常价格/缺图产品、结构化JSON输出
- 本地可使用 OllamaMistral/Llama3通过 HTTP Request 调用本地 API无需外部 API Key
- 防封策略User-Agent轮换、代理池BrightData/ScraperAPI、下载延迟+随机化访问、分布式调度Scrapyd/Scrapy集群
## Key Quotes
> "Scrapy + Playwright或 Crawlee + Playwright" — 推荐爬虫工具组合
> "在 n8n 中可以通过 workflow 实现整个管线自动化" — n8n 自动化核心理念
> "可以本地使用 Ollama (Mistral, Llama3) 模型,通过 n8n 的 HTTP Request 调用本地 http://localhost:11434/api/generate" — 本地AI处理方案
## Key Concepts
- [[Scrapy]]Python 爬虫框架,擅长结构化抓取、分页调度和媒体下载
- [[Playwright]]:浏览器自动化工具,支持 JS 渲染页面和无头模式
- [[scrapy-playwright]]:让 Scrapy 调用 Playwright 渲染动态页面的插件
- [[n8n]]:开源工作流自动化平台,支持 Trigger/Action/AI 节点编排
- [[Docker Compose]]:容器化编排工具,定义和运行多容器应用
- [[Ollama]]:本地 LLM 运行框架,支持 Mistral/Llama3 等模型
- [[LangChain]]:结合 Vector DBQdrant/Milvus存储产品语义信息
- [[Bright Data]]:商业代理池服务,用于爬虫防封
- [[Scrapyd]]Scrapy 分布式部署集群管理工具
- [[MinIO]]S3 兼容对象存储,用于存储图片和视频
- [[Grafana]]:可视化平台,生成电商趋势与分析报表
- [[Metabase]]:开源 BI 工具,连接数据库生成分析报表
- [[FastAPI]]Python Web 框架,用于暴露 REST API 给前端或 BI 工具
## Key Entities
- [[Amazon]]电商平台示例Scrapy 爬虫的目标站点
- [[JD]](京东):电商平台示例
- [[Taobao]](淘宝):电商平台示例
- [[Shopee]]:电商平台示例,提供公开 API
- [[Scrapy]] 社区:开源爬虫框架生态
## Connections
- [[Scrapy]] ← 核心爬虫 ← [[scrapy-playwright]]
- [[scrapy-playwright]] ← 集成 → [[Playwright]]
- [[n8n]] ← 编排自动化 ← [[Docker Compose]]
- [[Docker Compose]] ← 容器化 ← [[Scrapy]] + [[Playwright]]
- [[Ollama]] ← 本地 LLM ← [[n8n HTTP Request Node]]
- [[Bright Data]] ← 代理池 ← 防封策略
- [[Metabase]] ← 数据可视化 ← PostgreSQL/SQLite
- [[MinIO]] ← 对象存储 ← 图片/视频存储
## Contradictions
- 无已知冲突内容
## 起步路径
1. 在 Ubuntu 上安装 Docker + Docker Compose
2. 启动基础环境scrapy + playwright + n8n
3. 选择 12 个电商站点Amazon / JD / Taobao
4. 构建 Scrapy 爬虫模板
5. 用 n8n 处理数据并测试 AI 工作流
6. 逐步扩展至全自动管线