--- title: "可自动化、可扩展、AI增强的电商数据采集与处理系统" type: source tags: [] date: 2025-11-11 --- ## Source File - [[raw/Others/可自动化、可扩展、AI增强的电商数据采集与处理系统.md]] ## Summary(用中文描述) - 核心主题:基于 Docker + Ubuntu + n8n 构建可自动化、可扩展、AI增强的电商数据采集与处理系统 - 问题域:电商平台产品信息采集、清洗、AI处理、存储与可视化 - 方法/机制:三层架构(采集层→处理层→存储层),Scrapy + Playwright 组合抓取,n8n 自动化工作流编排,LLM API 进行内容摘要/分类/翻译/特征提取 - 结论/价值:提供完整开源技术栈的电商数据采集方案,支持容器化部署和 AI 增强处理 ## Key Claims(用中文描述) - Scrapy + Playwright 组合是电商爬虫的最佳实践(Scrapy 负责结构化抓取,Playwright 处理动态页面) - n8n 可通过工作流实现整个数据管线自动化(定时触发→执行爬虫→读取JSON→调用AI→存入数据库) - Ollama 本地部署可替代外部 OpenAI API,降低成本并保护数据隐私 ## Key Quotes > "Scrapy + Playwright(或Crawlee + Playwright)" — 推荐爬虫技术组合,Scrapy 负责结构化抓取、分页调度、媒体下载;Playwright 负责加载动态页面 > "用 n8n 的 HTTP Request 调用本地 http://localhost:11434/api/generate" — 本地 Ollama 调用方式 > "使用 User-Agent轮换、代理池、下载延迟 + 随机化访问" — 防封策略核心三要素 ## Key Concepts - [[网页爬虫]]:自动化抓取网页数据的程序或脚本 - [[自动化工作流引擎]]:通过可视化编排实现业务流程自动化的平台 - [[防封技术]]:防止爬虫被目标网站封禁的技术手段(UA轮换、代理池、延迟访问) - [[Docker容器化]]:使用 Docker 将爬虫和服务打包部署的技术 - [[LLM API集成]]:调用大语言模型进行内容处理(摘要、分类、翻译) - [[向量数据库]]:存储语义信息用于 AI 检索(Qdrant、Milvus) ## Key Entities - [[Scrapy]]:Python 爬虫框架,适合结构化数据抓取和分布式部署 - [[Playwright]]:微软开源的浏览器自动化工具,支持动态页面渲染 - [[n8n]]:开源工作流自动化平台,支持 API 集成和定时任务 - [[Ollama]]:本地 LLM 运行时,支持 Mistral、Llama3 等模型 - [[Docker Compose]]:Docker 容器编排工具,用于多服务协同部署 - [[PostgreSQL]]:开源关系型数据库,适合结构化数据存储 - [[MinIO]]:S3 兼容的对象存储,用于图片和视频存储 - [[Grafana]]:开源数据可视化平台,用于监控仪表盘 ## Connections - [[Scrapy]] ← 依赖 → [[Playwright]] - [[n8n]] ← 消费数据 → [[Scrapy]] - [[n8n]] ← 调用 → [[Ollama]] - [[Scrapy]] ← 写入 → [[PostgreSQL]] ## Contradictions - 暂无内容冲突