nexus/wiki/sources/ke-zi-dong-hua-ke-kuo-zhan-ai-zeng-qiang-de-dian-shang-shu-ju-cai-ji-yu-chu-li-xi-tong.md at c6e3d3c5db79e3b95192674455dab92a2b8f3811 - nexus - Gitea: Git with a cup of tea

ishenwei/nexus

Files

weishen c6e3d3c5db 新增wiki命令文件

2026-04-14 16:02:50 +08:00

2.0 KiB

Raw Blame History

title, type, tags, date, source_file

title

type

tags

date

source_file

可自动化、可扩展、AI增强的电商数据采集与处理系统

source

scrapy

playwright

n8n

docker

ollama

ecommerce

2025-11-11

raw/Technical/Home Office/可自动化、可扩展、AI增强的电商数据采集与处理系统.md

Summary

核心主题：基于Docker + Ubuntu + n8n搭建的自动化电商数据采集与AI处理系统
问题域：电商数据采集效率、动态页面处理、AI内容分析
方法/机制：Scrapy + Playwright爬虫组合，n8n工作流自动化，Ollama本地LLM处理
结论/价值：提供完整的电商数据采集、处理、存储、可视化方案

Key Claims

Scrapy + Playwright组合可解决动态渲染页面抓取问题
n8n工作流可实现完整的自动化数据管道
本地Ollama可替代外部API进行AI内容处理
Docker容器化部署确保系统可扩展性

Key Concepts

爬虫框架：Scrapy高性能爬虫框架
浏览器渲染：Playwright处理JavaScript动态内容
工作流自动化：n8n可视化自动化平台
本地LLM：Ollama本地模型服务
数据管道：ETL数据处理流程

Key Entities

Docker：容器化部署基础设施
n8n：工作流自动化平台
Scrapy：Python爬虫框架
Playwright：浏览器自动化工具
Ollama：本地LLM运行平台

Connections

Docker ← 承载 ← n8n
Scrapy ← 数据源 ← 数据管道
Ollama ← 处理层 ← n8n

Architecture

系统分为三个层次：

数据采集层：Scrapy/Playwright采集电商数据
数据处理层：n8n + LLM API进行清洗、分类、摘要
存储展示层：PostgreSQL/MinIO存储，Grafana可视化

技术栈

组件	用途
Scrapy	结构化页面抓取
scrapy-playwright	动态页面渲染
n8n	工作流自动化
Ollama	本地AI处理
PostgreSQL	结构化数据存储
MinIO	对象存储（图片/视频）