Update nexus: fix conflicts and sync local changes
This commit is contained in:
@@ -1,70 +1,70 @@
|
||||
---
|
||||
title: "可自动化、可扩展、AI增强的电商数据采集与处理系统"
|
||||
type: source
|
||||
tags: []
|
||||
date: 2025-11-11
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[raw/Others/可自动化、可扩展、AI增强的电商数据采集与处理系统.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:基于 Docker + Ubuntu + n8n 构建可自动化、可扩展、AI增强的电商数据采集与处理系统
|
||||
- 问题域:电商数据爬取效率低、AI处理缺失、缺乏自动化管线
|
||||
- 方法/机制:三层架构(爬虫层→AI处理层→存储展示层);Scrapy+Playwright组合抓取动态页面;n8n工作流编排自动化;Docker Compose容器化部署
|
||||
- 结论/价值:提供完整的开源技术栈方案,实现从爬取到AI分析的全链路自动化
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- Scrapy 负责结构化抓取、分页调度、媒体下载;Playwright 负责加载动态页面;两者通过 Docker Compose 容器化,输出 JSON/CSV 供 n8n 消费
|
||||
- n8n 工作流可实现定时启动爬虫→读取JSON→调用LLM提取属性→写入数据库→生成报表通知的全链路自动化
|
||||
- AI 处理任务包括:内容摘要分类、多语言翻译、特征提取(品牌/价格/类别)、异常检测(异常价格/缺图产品)、结构化JSON输出
|
||||
- 本地可使用 Ollama(Mistral/Llama3)通过 HTTP Request 调用本地 API,无需外部 API Key
|
||||
- 防封策略:User-Agent轮换、代理池(BrightData/ScraperAPI)、下载延迟+随机化访问、分布式调度(Scrapyd/Scrapy集群)
|
||||
|
||||
## Key Quotes
|
||||
> "Scrapy + Playwright(或 Crawlee + Playwright)" — 推荐爬虫工具组合
|
||||
> "在 n8n 中可以通过 workflow 实现整个管线自动化" — n8n 自动化核心理念
|
||||
> "可以本地使用 Ollama (Mistral, Llama3) 模型,通过 n8n 的 HTTP Request 调用本地 http://localhost:11434/api/generate" — 本地AI处理方案
|
||||
|
||||
## Key Concepts
|
||||
- [[Scrapy]]:Python 爬虫框架,擅长结构化抓取、分页调度和媒体下载
|
||||
- [[Playwright]]:浏览器自动化工具,支持 JS 渲染页面和无头模式
|
||||
- [[scrapy-playwright]]:让 Scrapy 调用 Playwright 渲染动态页面的插件
|
||||
- [[n8n]]:开源工作流自动化平台,支持 Trigger/Action/AI 节点编排
|
||||
- [[Docker Compose]]:容器化编排工具,定义和运行多容器应用
|
||||
- [[Ollama]]:本地 LLM 运行框架,支持 Mistral/Llama3 等模型
|
||||
- [[LangChain]]:结合 Vector DB(Qdrant/Milvus)存储产品语义信息
|
||||
- [[Bright Data]]:商业代理池服务,用于爬虫防封
|
||||
- [[Scrapyd]]:Scrapy 分布式部署集群管理工具
|
||||
- [[MinIO]]:S3 兼容对象存储,用于存储图片和视频
|
||||
- [[Grafana]]:可视化平台,生成电商趋势与分析报表
|
||||
- [[Metabase]]:开源 BI 工具,连接数据库生成分析报表
|
||||
- [[FastAPI]]:Python Web 框架,用于暴露 REST API 给前端或 BI 工具
|
||||
|
||||
## Key Entities
|
||||
- [[Amazon]]:电商平台示例,Scrapy 爬虫的目标站点
|
||||
- [[JD]](京东):电商平台示例
|
||||
- [[Taobao]](淘宝):电商平台示例
|
||||
- [[Shopee]]:电商平台示例,提供公开 API
|
||||
- [[Scrapy]] 社区:开源爬虫框架生态
|
||||
|
||||
## Connections
|
||||
- [[Scrapy]] ← 核心爬虫 ← [[scrapy-playwright]]
|
||||
- [[scrapy-playwright]] ← 集成 → [[Playwright]]
|
||||
- [[n8n]] ← 编排自动化 ← [[Docker Compose]]
|
||||
- [[Docker Compose]] ← 容器化 ← [[Scrapy]] + [[Playwright]]
|
||||
- [[Ollama]] ← 本地 LLM ← [[n8n HTTP Request Node]]
|
||||
- [[Bright Data]] ← 代理池 ← 防封策略
|
||||
- [[Metabase]] ← 数据可视化 ← PostgreSQL/SQLite
|
||||
- [[MinIO]] ← 对象存储 ← 图片/视频存储
|
||||
|
||||
## Contradictions
|
||||
- 无已知冲突内容
|
||||
|
||||
## 起步路径
|
||||
1. 在 Ubuntu 上安装 Docker + Docker Compose
|
||||
2. 启动基础环境:scrapy + playwright + n8n
|
||||
3. 选择 1–2 个电商站点(Amazon / JD / Taobao)
|
||||
4. 构建 Scrapy 爬虫模板
|
||||
5. 用 n8n 处理数据并测试 AI 工作流
|
||||
6. 逐步扩展至全自动管线
|
||||
---
|
||||
title: "可自动化、可扩展、AI增强的电商数据采集与处理系统"
|
||||
type: source
|
||||
tags: []
|
||||
date: 2025-11-11
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[raw/Others/可自动化、可扩展、AI增强的电商数据采集与处理系统.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:基于 Docker + Ubuntu + n8n 构建可自动化、可扩展、AI增强的电商数据采集与处理系统
|
||||
- 问题域:电商数据爬取效率低、AI处理缺失、缺乏自动化管线
|
||||
- 方法/机制:三层架构(爬虫层→AI处理层→存储展示层);Scrapy+Playwright组合抓取动态页面;n8n工作流编排自动化;Docker Compose容器化部署
|
||||
- 结论/价值:提供完整的开源技术栈方案,实现从爬取到AI分析的全链路自动化
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- Scrapy 负责结构化抓取、分页调度、媒体下载;Playwright 负责加载动态页面;两者通过 Docker Compose 容器化,输出 JSON/CSV 供 n8n 消费
|
||||
- n8n 工作流可实现定时启动爬虫→读取JSON→调用LLM提取属性→写入数据库→生成报表通知的全链路自动化
|
||||
- AI 处理任务包括:内容摘要分类、多语言翻译、特征提取(品牌/价格/类别)、异常检测(异常价格/缺图产品)、结构化JSON输出
|
||||
- 本地可使用 Ollama(Mistral/Llama3)通过 HTTP Request 调用本地 API,无需外部 API Key
|
||||
- 防封策略:User-Agent轮换、代理池(BrightData/ScraperAPI)、下载延迟+随机化访问、分布式调度(Scrapyd/Scrapy集群)
|
||||
|
||||
## Key Quotes
|
||||
> "Scrapy + Playwright(或 Crawlee + Playwright)" — 推荐爬虫工具组合
|
||||
> "在 n8n 中可以通过 workflow 实现整个管线自动化" — n8n 自动化核心理念
|
||||
> "可以本地使用 Ollama (Mistral, Llama3) 模型,通过 n8n 的 HTTP Request 调用本地 http://localhost:11434/api/generate" — 本地AI处理方案
|
||||
|
||||
## Key Concepts
|
||||
- [[Scrapy]]:Python 爬虫框架,擅长结构化抓取、分页调度和媒体下载
|
||||
- [[Playwright]]:浏览器自动化工具,支持 JS 渲染页面和无头模式
|
||||
- [[scrapy-playwright]]:让 Scrapy 调用 Playwright 渲染动态页面的插件
|
||||
- [[n8n]]:开源工作流自动化平台,支持 Trigger/Action/AI 节点编排
|
||||
- [[Docker Compose]]:容器化编排工具,定义和运行多容器应用
|
||||
- [[Ollama]]:本地 LLM 运行框架,支持 Mistral/Llama3 等模型
|
||||
- [[LangChain]]:结合 Vector DB(Qdrant/Milvus)存储产品语义信息
|
||||
- [[Bright Data]]:商业代理池服务,用于爬虫防封
|
||||
- [[Scrapyd]]:Scrapy 分布式部署集群管理工具
|
||||
- [[MinIO]]:S3 兼容对象存储,用于存储图片和视频
|
||||
- [[Grafana]]:可视化平台,生成电商趋势与分析报表
|
||||
- [[Metabase]]:开源 BI 工具,连接数据库生成分析报表
|
||||
- [[FastAPI]]:Python Web 框架,用于暴露 REST API 给前端或 BI 工具
|
||||
|
||||
## Key Entities
|
||||
- [[Amazon]]:电商平台示例,Scrapy 爬虫的目标站点
|
||||
- [[JD]](京东):电商平台示例
|
||||
- [[Taobao]](淘宝):电商平台示例
|
||||
- [[Shopee]]:电商平台示例,提供公开 API
|
||||
- [[Scrapy]] 社区:开源爬虫框架生态
|
||||
|
||||
## Connections
|
||||
- [[Scrapy]] ← 核心爬虫 ← [[scrapy-playwright]]
|
||||
- [[scrapy-playwright]] ← 集成 → [[Playwright]]
|
||||
- [[n8n]] ← 编排自动化 ← [[Docker Compose]]
|
||||
- [[Docker Compose]] ← 容器化 ← [[Scrapy]] + [[Playwright]]
|
||||
- [[Ollama]] ← 本地 LLM ← [[n8n HTTP Request Node]]
|
||||
- [[Bright Data]] ← 代理池 ← 防封策略
|
||||
- [[Metabase]] ← 数据可视化 ← PostgreSQL/SQLite
|
||||
- [[MinIO]] ← 对象存储 ← 图片/视频存储
|
||||
|
||||
## Contradictions
|
||||
- 无已知冲突内容
|
||||
|
||||
## 起步路径
|
||||
1. 在 Ubuntu 上安装 Docker + Docker Compose
|
||||
2. 启动基础环境:scrapy + playwright + n8n
|
||||
3. 选择 1–2 个电商站点(Amazon / JD / Taobao)
|
||||
4. 构建 Scrapy 爬虫模板
|
||||
5. 用 n8n 处理数据并测试 AI 工作流
|
||||
6. 逐步扩展至全自动管线
|
||||
|
||||
Reference in New Issue
Block a user