--- title: "可自动化、可扩展、AI增强的电商数据采集与处理系统" type: source tags: [scrapy, playwright, n8n, docker, ollama, ecommerce] date: 2025-11-11 source_file: raw/Technical/Home Office/可自动化、可扩展、AI增强的电商数据采集与处理系统.md --- ## Summary - 核心主题:基于Docker + Ubuntu + n8n搭建的自动化电商数据采集与AI处理系统 - 问题域:电商数据采集效率、动态页面处理、AI内容分析 - 方法/机制:Scrapy + Playwright爬虫组合,n8n工作流自动化,Ollama本地LLM处理 - 结论/价值:提供完整的电商数据采集、处理、存储、可视化方案 ## Key Claims - Scrapy + Playwright组合可解决动态渲染页面抓取问题 - n8n工作流可实现完整的自动化数据管道 - 本地Ollama可替代外部API进行AI内容处理 - Docker容器化部署确保系统可扩展性 ## Key Concepts - [[爬虫框架]]:Scrapy高性能爬虫框架 - [[浏览器渲染]]:Playwright处理JavaScript动态内容 - [[工作流自动化]]:n8n可视化自动化平台 - [[本地LLM]]:Ollama本地模型服务 - [[数据管道]]:ETL数据处理流程 ## Key Entities - [[Docker]]:容器化部署基础设施 - [[n8n]]:工作流自动化平台 - [[Scrapy]]:Python爬虫框架 - [[Playwright]]:浏览器自动化工具 - [[Ollama]]:本地LLM运行平台 ## Connections - [[Docker]] ← 承载 ← [[n8n]] - [[Scrapy]] ← 数据源 ← [[数据管道]] - [[Ollama]] ← 处理层 ← [[n8n]] ## Architecture 系统分为三个层次: 1. **数据采集层**:Scrapy/Playwright采集电商数据 2. **数据处理层**:n8n + LLM API进行清洗、分类、摘要 3. **存储展示层**:PostgreSQL/MinIO存储,Grafana可视化 ## 技术栈 | 组件 | 用途 | |------|------| | Scrapy | 结构化页面抓取 | | scrapy-playwright | 动态页面渲染 | | n8n | 工作流自动化 | | Ollama | 本地AI处理 | | PostgreSQL | 结构化数据存储 | | MinIO | 对象存储(图片/视频) |