Auto-sync: 2026-04-28 12:03

2026-04-28 12:03:10 +08:00
parent c898cc3fb9
commit f8b421ece6
45 changed files with 1739 additions and 1073 deletions
--- a/wiki/sources/可自动化-可扩展-ai增强的电商数据采集与处理系统.md
+++ b/wiki/sources/可自动化-可扩展-ai增强的电商数据采集与处理系统.md
@@ -1,70 +1,53 @@
---
-title: "可自动化、可扩展、AI增强的电商数据采集与处理系统"
-type: source
-tags: []
-date: 2025-11-11
---
-
-## Source File
- [[raw/Others/可自动化、可扩展、AI增强的电商数据采集与处理系统.md]]
-
-## Summary（用中文描述）
- 核心主题：基于 Docker + Ubuntu + n8n 构建可自动化、可扩展、AI增强的电商数据采集与处理系统
- 问题域：电商数据爬取效率低、AI处理缺失、缺乏自动化管线
- 方法/机制：三层架构（爬虫层→AI处理层→存储展示层）；Scrapy+Playwright组合抓取动态页面；n8n工作流编排自动化；Docker Compose容器化部署
- 结论/价值：提供完整的开源技术栈方案，实现从爬取到AI分析的全链路自动化
-
-## Key Claims（用中文描述）
- Scrapy 负责结构化抓取、分页调度、媒体下载；Playwright 负责加载动态页面；两者通过 Docker Compose 容器化，输出 JSON/CSV 供 n8n 消费
- n8n 工作流可实现定时启动爬虫→读取JSON→调用LLM提取属性→写入数据库→生成报表通知的全链路自动化
- AI 处理任务包括：内容摘要分类、多语言翻译、特征提取（品牌/价格/类别）、异常检测（异常价格/缺图产品）、结构化JSON输出
- 本地可使用 Ollama（Mistral/Llama3）通过 HTTP Request 调用本地 API，无需外部 API Key
- 防封策略：User-Agent轮换、代理池（BrightData/ScraperAPI）、下载延迟+随机化访问、分布式调度（Scrapyd/Scrapy集群）
-
-## Key Quotes
-> "Scrapy + Playwright（或 Crawlee + Playwright）" — 推荐爬虫工具组合
-> "在 n8n 中可以通过 workflow 实现整个管线自动化" — n8n 自动化核心理念
-> "可以本地使用 Ollama (Mistral, Llama3) 模型，通过 n8n 的 HTTP Request 调用本地 http://localhost:11434/api/generate" — 本地AI处理方案
-
-## Key Concepts
- [[Scrapy]]：Python 爬虫框架，擅长结构化抓取、分页调度和媒体下载
- [[Playwright]]：浏览器自动化工具，支持 JS 渲染页面和无头模式
- [[scrapy-playwright]]：让 Scrapy 调用 Playwright 渲染动态页面的插件
- [[n8n]]：开源工作流自动化平台，支持 Trigger/Action/AI 节点编排
- [[Docker Compose]]：容器化编排工具，定义和运行多容器应用
- [[Ollama]]：本地 LLM 运行框架，支持 Mistral/Llama3 等模型
- [[LangChain]]：结合 Vector DB（Qdrant/Milvus）存储产品语义信息
- [[Bright Data]]：商业代理池服务，用于爬虫防封
- [[Scrapyd]]：Scrapy 分布式部署集群管理工具
- [[MinIO]]：S3 兼容对象存储，用于存储图片和视频
- [[Grafana]]：可视化平台，生成电商趋势与分析报表
- [[Metabase]]：开源 BI 工具，连接数据库生成分析报表
- [[FastAPI]]：Python Web 框架，用于暴露 REST API 给前端或 BI 工具
-
-## Key Entities
- [[Amazon]]：电商平台示例，Scrapy 爬虫的目标站点
- [[JD]]（京东）：电商平台示例
- [[Taobao]]（淘宝）：电商平台示例
- [[Shopee]]：电商平台示例，提供公开 API
- [[Scrapy]] 社区：开源爬虫框架生态
-
-## Connections
- [[Scrapy]] ← 核心爬虫 ← [[scrapy-playwright]]
- [[scrapy-playwright]] ← 集成 → [[Playwright]]
- [[n8n]] ← 编排自动化 ← [[Docker Compose]]
- [[Docker Compose]] ← 容器化 ← [[Scrapy]] + [[Playwright]]
- [[Ollama]] ← 本地 LLM ← [[n8n HTTP Request Node]]
- [[Bright Data]] ← 代理池 ← 防封策略
- [[Metabase]] ← 数据可视化 ← PostgreSQL/SQLite
- [[MinIO]] ← 对象存储 ← 图片/视频存储
-
-## Contradictions
- 无已知冲突内容
-
-## 起步路径
-1. 在 Ubuntu 上安装 Docker + Docker Compose
-2. 启动基础环境：scrapy + playwright + n8n
-3. 选择 1–2 个电商站点（Amazon / JD / Taobao）
-4. 构建 Scrapy 爬虫模板
-5. 用 n8n 处理数据并测试 AI 工作流
-6. 逐步扩展至全自动管线
+---
+title: "可自动化、可扩展、AI增强的电商数据采集与处理系统"
+type: source
+tags: []
+date: 2025-11-11
+---
+
+## Source File
+- [[raw/Others/可自动化、可扩展、AI增强的电商数据采集与处理系统.md]]
+
+## Summary（用中文描述）
+- 核心主题：基于 Docker + Ubuntu + n8n 构建可自动化、可扩展、AI增强的电商数据采集与处理系统
+- 问题域：电商平台产品信息采集、清洗、AI处理、存储与可视化
+- 方法/机制：三层架构（采集层→处理层→存储层），Scrapy + Playwright 组合抓取，n8n 自动化工作流编排，LLM API 进行内容摘要/分类/翻译/特征提取
+- 结论/价值：提供完整开源技术栈的电商数据采集方案，支持容器化部署和 AI 增强处理
+
+## Key Claims（用中文描述）
+- Scrapy + Playwright 组合是电商爬虫的最佳实践（Scrapy 负责结构化抓取，Playwright 处理动态页面）
+- n8n 可通过工作流实现整个数据管线自动化（定时触发→执行爬虫→读取JSON→调用AI→存入数据库）
+- Ollama 本地部署可替代外部 OpenAI API，降低成本并保护数据隐私
+
+## Key Quotes
+> "Scrapy + Playwright（或Crawlee + Playwright）" — 推荐爬虫技术组合，Scrapy 负责结构化抓取、分页调度、媒体下载；Playwright 负责加载动态页面
+> "用 n8n 的 HTTP Request 调用本地 http://localhost:11434/api/generate" — 本地 Ollama 调用方式
+> "使用 User-Agent轮换、代理池、下载延迟 + 随机化访问" — 防封策略核心三要素
+
+## Key Concepts
+- [[网页爬虫]]：自动化抓取网页数据的程序或脚本
+- [[自动化工作流引擎]]：通过可视化编排实现业务流程自动化的平台
+- [[防封技术]]：防止爬虫被目标网站封禁的技术手段（UA轮换、代理池、延迟访问）
+- [[Docker容器化]]：使用 Docker 将爬虫和服务打包部署的技术
+- [[LLM API集成]]：调用大语言模型进行内容处理（摘要、分类、翻译）
+- [[向量数据库]]：存储语义信息用于 AI 检索（Qdrant、Milvus）
+
+## Key Entities
+- [[Scrapy]]：Python 爬虫框架，适合结构化数据抓取和分布式部署
+- [[Playwright]]：微软开源的浏览器自动化工具，支持动态页面渲染
+- [[n8n]]：开源工作流自动化平台，支持 API 集成和定时任务
+- [[Ollama]]：本地 LLM 运行时，支持 Mistral、Llama3 等模型
+- [[Docker Compose]]：Docker 容器编排工具，用于多服务协同部署
+- [[PostgreSQL]]：开源关系型数据库，适合结构化数据存储
+- [[MinIO]]：S3 兼容的对象存储，用于图片和视频存储
+- [[Grafana]]：开源数据可视化平台，用于监控仪表盘
+
+## Connections
+- [[Scrapy]] ← 依赖 → [[Playwright]]
+- [[n8n]] ← 消费数据 → [[Scrapy]]
+- [[n8n]] ← 调用 → [[Ollama]]
+- [[Scrapy]] ← 写入 → [[PostgreSQL]]
+
+## Contradictions
+- 暂无内容冲突
+