nexus/wiki/sources/可自动化-可扩展-ai增强的电商数据采集与处理系统.md

---
title: "可自动化、可扩展、AI增强的电商数据采集与处理系统"
type: source
tags: []
date: 2025-11-11
---

## Source File
- [[raw/Others/可自动化、可扩展、AI增强的电商数据采集与处理系统.md]]

## Summary（用中文描述）
- 核心主题：基于 Docker + Ubuntu + n8n 构建可自动化、可扩展、AI增强的电商数据采集与处理系统
- 问题域：电商平台产品信息采集、清洗、AI处理、存储与可视化
- 方法/机制：三层架构（采集层→处理层→存储层），Scrapy + Playwright 组合抓取，n8n 自动化工作流编排，LLM API 进行内容摘要/分类/翻译/特征提取
- 结论/价值：提供完整开源技术栈的电商数据采集方案，支持容器化部署和 AI 增强处理

## Key Claims（用中文描述）
- Scrapy + Playwright 组合是电商爬虫的最佳实践（Scrapy 负责结构化抓取，Playwright 处理动态页面）
- n8n 可通过工作流实现整个数据管线自动化（定时触发→执行爬虫→读取JSON→调用AI→存入数据库）
- Ollama 本地部署可替代外部 OpenAI API，降低成本并保护数据隐私

## Key Quotes
> "Scrapy + Playwright（或Crawlee + Playwright）" — 推荐爬虫技术组合，Scrapy 负责结构化抓取、分页调度、媒体下载；Playwright 负责加载动态页面
> "用 n8n 的 HTTP Request 调用本地 http://localhost:11434/api/generate" — 本地 Ollama 调用方式
> "使用 User-Agent轮换、代理池、下载延迟 + 随机化访问" — 防封策略核心三要素

## Key Concepts
- [[网页爬虫]]：自动化抓取网页数据的程序或脚本
- [[自动化工作流引擎]]：通过可视化编排实现业务流程自动化的平台
- [[防封技术]]：防止爬虫被目标网站封禁的技术手段（UA轮换、代理池、延迟访问）
- [[Docker容器化]]：使用 Docker 将爬虫和服务打包部署的技术
- [[LLM API集成]]：调用大语言模型进行内容处理（摘要、分类、翻译）
- [[向量数据库]]：存储语义信息用于 AI 检索（Qdrant、Milvus）

## Key Entities
- [[Scrapy]]：Python 爬虫框架，适合结构化数据抓取和分布式部署
- [[Playwright]]：微软开源的浏览器自动化工具，支持动态页面渲染
- [[n8n]]：开源工作流自动化平台，支持 API 集成和定时任务
- [[Ollama]]：本地 LLM 运行时，支持 Mistral、Llama3 等模型
- [[Docker Compose]]：Docker 容器编排工具，用于多服务协同部署
- [[PostgreSQL]]：开源关系型数据库，适合结构化数据存储
- [[MinIO]]：S3 兼容的对象存储，用于图片和视频存储
- [[Grafana]]：开源数据可视化平台，用于监控仪表盘

## Connections
- [[Scrapy]] ← 依赖 → [[Playwright]]
- [[n8n]] ← 消费数据 → [[Scrapy]]
- [[n8n]] ← 调用 → [[Ollama]]
- [[Scrapy]] ← 写入 → [[PostgreSQL]]

## Contradictions
- 暂无内容冲突