Files
nexus/wiki/sources/ke-zi-dong-hua-ke-kuo-zhan-ai-zeng-qiang-de-dian-shang-shu-ju-cai-ji-yu-chu-li-xi-tong.md
2026-04-14 16:02:50 +08:00

54 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "可自动化、可扩展、AI增强的电商数据采集与处理系统"
type: source
tags: [scrapy, playwright, n8n, docker, ollama, ecommerce]
date: 2025-11-11
source_file: raw/Technical/Home Office/可自动化、可扩展、AI增强的电商数据采集与处理系统.md
---
## Summary
- 核心主题基于Docker + Ubuntu + n8n搭建的自动化电商数据采集与AI处理系统
- 问题域电商数据采集效率、动态页面处理、AI内容分析
- 方法/机制Scrapy + Playwright爬虫组合n8n工作流自动化Ollama本地LLM处理
- 结论/价值:提供完整的电商数据采集、处理、存储、可视化方案
## Key Claims
- Scrapy + Playwright组合可解决动态渲染页面抓取问题
- n8n工作流可实现完整的自动化数据管道
- 本地Ollama可替代外部API进行AI内容处理
- Docker容器化部署确保系统可扩展性
## Key Concepts
- [[爬虫框架]]Scrapy高性能爬虫框架
- [[浏览器渲染]]Playwright处理JavaScript动态内容
- [[工作流自动化]]n8n可视化自动化平台
- [[本地LLM]]Ollama本地模型服务
- [[数据管道]]ETL数据处理流程
## Key Entities
- [[Docker]]:容器化部署基础设施
- [[n8n]]:工作流自动化平台
- [[Scrapy]]Python爬虫框架
- [[Playwright]]:浏览器自动化工具
- [[Ollama]]本地LLM运行平台
## Connections
- [[Docker]] ← 承载 ← [[n8n]]
- [[Scrapy]] ← 数据源 ← [[数据管道]]
- [[Ollama]] ← 处理层 ← [[n8n]]
## Architecture
系统分为三个层次:
1. **数据采集层**Scrapy/Playwright采集电商数据
2. **数据处理层**n8n + LLM API进行清洗、分类、摘要
3. **存储展示层**PostgreSQL/MinIO存储Grafana可视化
## 技术栈
| 组件 | 用途 |
|------|------|
| Scrapy | 结构化页面抓取 |
| scrapy-playwright | 动态页面渲染 |
| n8n | 工作流自动化 |
| Ollama | 本地AI处理 |
| PostgreSQL | 结构化数据存储 |
| MinIO | 对象存储(图片/视频) |