--- title: "可自动化、可扩展、AI增强的电商数据采集与处理系统" type: source tags: [电商, 数据采集, 自动化, AI, n8n, Scrapy, Playwright] date: 2025-11-11 --- ## Source File - [[raw/Home Office/可自动化、可扩展、AI增强的电商数据采集与处理系统.md]] ## Summary - 核心主题:基于 Docker + Ubuntu + n8n 的电商数据采集与处理系统设计 - 问题域:电商网站产品信息自动化采集、清洗、AI处理与可视化 - 方法/机制:Scrapy + Playwright 爬虫层 → n8n 自动化管道 → LLM AI处理 → PostgreSQL/Grafana 存储展示 - 结论/价值:构建可自动化、可扩展的电商数据管线,支持定时采集、AI摘要分类、异常检测、报告通知 ## Key Claims - Scrapy + Playwright 组合适合电商爬虫(静态抓取+动态渲染) - n8n 可通过 workflow 实现全管线自动化 - Ollama 本地模型可替代外部 API 进行离线 AI 处理 - 分布式调度可用 Scrapyd 或 Archetype 实现扩展 ## Key Quotes > "你想要的是一个可自动化、可扩展、AI增强的数据采集与处理系统,基于 Docker + Ubuntu + n8n 搭建。" — 原文开头 ## Key Concepts - [[Scrapy]]:Python 爬虫框架,适合静态页面和结构化抓取 - [[Playwright]]:Microsoft 浏览器自动化工具,支持动态页面渲染 - [[n8n]]:开源工作流自动化工具,可编排爬虫、AI处理、数据存储 - [[Ollama]]:本地 LLM 运行环境,支持离线 AI 处理 - [[Docker Compose]]:多容器编排工具,定义爬虫服务架构 ## Key Entities - [[Docker]]:容器化平台 - [[PostgreSQL]]:关系型数据库 - [[Grafana]]:数据可视化工具 - [[MinIO]]:S3 兼容对象存储 - [[FastAPI]]:Python Web 框架,可作为服务层暴露 API ## Connections - [[Scrapy]] ← depends_on ← [[Playwright]] - [[n8n]] ← orchestrates ← [[Scrapy]] - [[n8n]] ← calls ← [[Ollama]] - [[PostgreSQL]] ← stores ← AI处理结果 - [[Grafana]] ← visualizes ← PostgreSQL数据 ## Contradictions - (暂无)