54 lines
2.9 KiB
Markdown
54 lines
2.9 KiB
Markdown
---
|
||
title: "可自动化、可扩展、AI增强的电商数据采集与处理系统"
|
||
type: source
|
||
tags: []
|
||
date: 2025-11-11
|
||
---
|
||
|
||
## Source File
|
||
- [[raw/Others/可自动化、可扩展、AI增强的电商数据采集与处理系统.md]]
|
||
|
||
## Summary(用中文描述)
|
||
- 核心主题:基于 Docker + Ubuntu + n8n 构建可自动化、可扩展、AI增强的电商数据采集与处理系统
|
||
- 问题域:电商平台产品信息采集、清洗、AI处理、存储与可视化
|
||
- 方法/机制:三层架构(采集层→处理层→存储层),Scrapy + Playwright 组合抓取,n8n 自动化工作流编排,LLM API 进行内容摘要/分类/翻译/特征提取
|
||
- 结论/价值:提供完整开源技术栈的电商数据采集方案,支持容器化部署和 AI 增强处理
|
||
|
||
## Key Claims(用中文描述)
|
||
- Scrapy + Playwright 组合是电商爬虫的最佳实践(Scrapy 负责结构化抓取,Playwright 处理动态页面)
|
||
- n8n 可通过工作流实现整个数据管线自动化(定时触发→执行爬虫→读取JSON→调用AI→存入数据库)
|
||
- Ollama 本地部署可替代外部 OpenAI API,降低成本并保护数据隐私
|
||
|
||
## Key Quotes
|
||
> "Scrapy + Playwright(或Crawlee + Playwright)" — 推荐爬虫技术组合,Scrapy 负责结构化抓取、分页调度、媒体下载;Playwright 负责加载动态页面
|
||
> "用 n8n 的 HTTP Request 调用本地 http://localhost:11434/api/generate" — 本地 Ollama 调用方式
|
||
> "使用 User-Agent轮换、代理池、下载延迟 + 随机化访问" — 防封策略核心三要素
|
||
|
||
## Key Concepts
|
||
- [[网页爬虫]]:自动化抓取网页数据的程序或脚本
|
||
- [[自动化工作流引擎]]:通过可视化编排实现业务流程自动化的平台
|
||
- [[防封技术]]:防止爬虫被目标网站封禁的技术手段(UA轮换、代理池、延迟访问)
|
||
- [[Docker容器化]]:使用 Docker 将爬虫和服务打包部署的技术
|
||
- [[LLM API集成]]:调用大语言模型进行内容处理(摘要、分类、翻译)
|
||
- [[向量数据库]]:存储语义信息用于 AI 检索(Qdrant、Milvus)
|
||
|
||
## Key Entities
|
||
- [[Scrapy]]:Python 爬虫框架,适合结构化数据抓取和分布式部署
|
||
- [[Playwright]]:微软开源的浏览器自动化工具,支持动态页面渲染
|
||
- [[n8n]]:开源工作流自动化平台,支持 API 集成和定时任务
|
||
- [[Ollama]]:本地 LLM 运行时,支持 Mistral、Llama3 等模型
|
||
- [[Docker Compose]]:Docker 容器编排工具,用于多服务协同部署
|
||
- [[PostgreSQL]]:开源关系型数据库,适合结构化数据存储
|
||
- [[MinIO]]:S3 兼容的对象存储,用于图片和视频存储
|
||
- [[Grafana]]:开源数据可视化平台,用于监控仪表盘
|
||
|
||
## Connections
|
||
- [[Scrapy]] ← 依赖 → [[Playwright]]
|
||
- [[n8n]] ← 消费数据 → [[Scrapy]]
|
||
- [[n8n]] ← 调用 → [[Ollama]]
|
||
- [[Scrapy]] ← 写入 → [[PostgreSQL]]
|
||
|
||
## Contradictions
|
||
- 暂无内容冲突
|
||
|