nexus/wiki/concepts/Content-Ingestion.md at eedfafcae292f1e1c4e27e9cbde3a70381176598

Files

Shen Wei f09834b5a5 Update nexus: fix conflicts and sync local changes

2026-04-26 12:06:50 +08:00

title, type, last_updated

title	type	last_updated
Content Ingestion	concept	2026-04-22

Definition

内容摄取（Content Ingestion）：将外部内容（网页、PDF、YouTube 字幕、推文等）通过自动化解析提取为结构化文本，并分块（Chunking）入库供检索系统使用的过程。是 Knowledge-Base-RAG 工作流的第一步——没有高质量的内容摄取，就没有可搜索的知识库。

URL 输入 → 内容获取 → 格式解析 → 文本清洗 → 分块（Chunking）→ Embedding → 向量入库

类型	解析方式	挑战
网页	HTML 解析 / Firecrawl / Jina Reader	广告/导航移除、JS 渲染内容
PDF	marker / pdfminer / PyMuPDF	表格、多栏布局、扫描件 OCR
YouTube	Transcript API / Whisper	自动字幕质量、噪音处理
推文/Tweet	Twitter API / 第三方抓取	字符限制、线程重组
Slack 消息	Slack API	富文本格式、附件分离

详见 Knowledge-Base-RAG 概念页。

Garbage in, garbage out——即使 Embedding 模型再强大，如果摄取内容充满噪音（广告、HTML 标签、格式乱码），检索质量也会大幅下降。好的摄取 pipeline 需要：