2.0 KiB
2.0 KiB
title, type, tags, date, source_file
| title | type | tags | date | source_file | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 可自动化、可扩展、AI增强的电商数据采集与处理系统 | source |
|
2025-11-11 | raw/Technical/Home Office/可自动化、可扩展、AI增强的电商数据采集与处理系统.md |
Summary
- 核心主题:基于Docker + Ubuntu + n8n搭建的自动化电商数据采集与AI处理系统
- 问题域:电商数据采集效率、动态页面处理、AI内容分析
- 方法/机制:Scrapy + Playwright爬虫组合,n8n工作流自动化,Ollama本地LLM处理
- 结论/价值:提供完整的电商数据采集、处理、存储、可视化方案
Key Claims
- Scrapy + Playwright组合可解决动态渲染页面抓取问题
- n8n工作流可实现完整的自动化数据管道
- 本地Ollama可替代外部API进行AI内容处理
- Docker容器化部署确保系统可扩展性
Key Concepts
- 爬虫框架:Scrapy高性能爬虫框架
- 浏览器渲染:Playwright处理JavaScript动态内容
- 工作流自动化:n8n可视化自动化平台
- 本地LLM:Ollama本地模型服务
- 数据管道:ETL数据处理流程
Key Entities
- Docker:容器化部署基础设施
- n8n:工作流自动化平台
- Scrapy:Python爬虫框架
- Playwright:浏览器自动化工具
- Ollama:本地LLM运行平台
Connections
Architecture
系统分为三个层次:
- 数据采集层:Scrapy/Playwright采集电商数据
- 数据处理层:n8n + LLM API进行清洗、分类、摘要
- 存储展示层:PostgreSQL/MinIO存储,Grafana可视化
技术栈
| 组件 | 用途 |
|---|---|
| Scrapy | 结构化页面抓取 |
| scrapy-playwright | 动态页面渲染 |
| n8n | 工作流自动化 |
| Ollama | 本地AI处理 |
| PostgreSQL | 结构化数据存储 |
| MinIO | 对象存储(图片/视频) |