Auto-sync: 2026-04-28 12:03

This commit is contained in:
2026-04-28 12:03:10 +08:00
parent c898cc3fb9
commit f8b421ece6
45 changed files with 1739 additions and 1073 deletions

View File

@@ -1,49 +1,50 @@
---
title: "Scrapy + Playwright 抓取TikTok Shop Data"
type: source
tags: [playwright, scrapy, tiktok-shop, python, docker, 爬虫]
date: 2026-04-24
tags: [playwright, scrapy, tiktok-shop, python, docker]
date: 2026-04-28
---
## Source File
- [[raw/跨境电商/Scrapy + Playwright 抓取TikTok Shop Data.md]]
## Summary用中文描述
- 核心主题:使用 Scrapy + Playwright 技术栈抓取 TikTok Shop 商家数据的环境配置与运行指南
- 问题域TikTok Shop 跨境电商数据采集的工程实现
- 方法/机制:通过 Python venv 虚拟环境隔离依赖,使用 scrapy-playwright 集成包驱动 Chromium 浏览器执行动态页面渲染,再通过 Docker 容器化部署
- 结论/价值:提供了完整的开发环境搭建流程和生产级 Docker 部署配置,是跨境电商数据采集项目的技术基座
- 核心主题:使用 Scrapy + Playwright 抓取 TikTok Shop 店铺数据的技术配置与实践指南
- 问题域TikTok Shop 跨境电商数据采集的 Python 环境搭建与依赖安装
- 方法/机制:
- 创建 Python 虚拟环境venv并激活
- 在虚拟环境中安装 `scrapy``scrapy-playwright`
- 安装 Playwright Chromium 浏览器
- 通过 `scrapy runspider` 命令行运行爬虫并传入店铺 URL 参数
- Docker 环境下需在 Dockerfile 中预配置 Python 虚拟环境路径
- 验证 Playwright 安装成功的测试脚本
- 结论/价值:提供了完整的开发环境配置流程,覆盖本地开发和 Docker 容器两种部署场景
## Key Claims用中文描述
- **虚拟环境隔离是首选方案**:通过 `python3 -m venv` 创建独立虚拟环境,安装 Scrapy + scrapy-playwright 依赖,相比 Docker 直接安装更适合开发调试
- **Playwright Chromium 是渲染引擎**:通过 `playwright install chromium` 安装无头浏览器,负责处理 TikTok Shop 的 JavaScript 动态加载内容
- **Docker 部署需配置 venv 环境变量**:在 Dockerfile 中添加 `RUN python3 -m venv /app/venv ENV PATH="/app/venv/bin:$PATH"`,使容器内 Python 命令使用虚拟环境
- **可用命令行参数指定目标店铺**:通过 `scrapy runspider tiktok_shop_spider.py -a shop_url="..."` 传递 TikTok Shop 店铺 URL 参数
- scrapy-playwright 插件可实现 Scrapy 爬虫与 Playwright 浏览器自动化协同工作
- 在 Docker 容器中运行需要通过 Dockerfile 预先配置 Python venv 环境变量
- Playwright Chromium 是驱动动态页面渲染的核心依赖
- `python -c "from playwright.sync_api import sync_playwright; print('Playwright OK')"` 可验证安装成功
## Key Quotes
> "最推荐:创建虚拟环境 (venv) 并安装 Scrapy + Playwright" — 文档作者推荐的最佳实践方案
> "source venv/bin/activate" — venv 激活命令
> "RUN python3 -m venv /app/venv ENV PATH=\"/app/venv/bin:$PATH\"" — Docker 中配置 Python venv 的标准写法
> "python -c \"from playwright.sync_api import sync_playwright; print('Playwright OK')\"" — Playwright 验证命令
> "pip install scrapy scrapy-playwright" — 核心依赖安装命令
> "scrapy runspider tiktok_shop_spider.py -a shop_url=\"https://www.tiktok.com/shop/store/xxxx/xxxxxxxxxxxx\"" — 爬虫运行命令示例
> "RUN python3 -m venv /app/venv && ENV PATH=\"/app/venv/bin:$PATH\"" — Docker 虚拟环境配置
## Key Concepts
- [[Scrapy]]Python 爬虫框架,负责请求调度、数据解析和管道存储
- [[Playwright]]Microsoft 开发的无头浏览器自动化工具,支持 Chromium/Firefox/WebKit 多引擎,用于渲染 JavaScript 动态页面
- [[scrapy-playwright]]:连接 Scrapy 与 Playwright 的集成包,使 Scrapy Spider 能够执行浏览器自动化操作
- [[venv]]Python 内置虚拟环境工具,用于隔离项目依赖,避免版本冲突
- [[Docker]]:容器化平台,用于生产环境部署
- [[Chromium]]Google 浏览器引擎Playwright 的默认渲染引擎
- [[WebScraping]]:通过 Scrapy + Playwright 组合实现 TikTok Shop 动态网页数据抓取
- [[BrowserAutomation]]Playwright 提供浏览器自动化能力,用于渲染 JavaScript 动态内容
- [[VirtualEnvironment]]Python venv 隔离项目依赖,避免包冲突
## Key Entities
- [[TikTok Shop]]字节跳动旗下的电商平台,本文档的数据采集目标
- shenwei文档作者提供实际操作笔记
- [[TikTok Shop]]:数据采集目标电商平台
- [[Scrapy]]Python 爬虫框架,提供网页抓取基础设施
- [[Playwright]]:微软开源浏览器自动化工具,支持 Chromium/ Firefox/WebKit
- [[Docker]]:容器化部署平台,文中涉及 Dockerfile 配置
## Connections
- [[TikTok Shop Apache Superset Dashboard]] ← uses ← [[Scrapy-Playwright-TikTok-Shop-Data]]
- [[做tk跨境思路不对努力白费]] ← related_to ← [[Scrapy-Playwright-TikTok-Shop-Data]]
- [[可自动化、可扩展、AI增强的电商数据采集与处理系统]] ← related_to ← [[Scrapy + Playwright 抓取TikTok Shop Data]]
- [[TikTok Shop - Apache Superset Dashboard设计思路]] ← related_to ← [[Scrapy + Playwright 抓取TikTok Shop Data]]
## Contradictions
-已知冲突内容
-明显内容冲突