Update nexus: fix conflicts and sync local changes

2026-04-26 12:06:50 +08:00
parent 191797c01b
commit f09834b5a5
2443 changed files with 254323 additions and 255154 deletions
--- a/wiki/concepts/Content-Ingestion.md
+++ b/wiki/concepts/Content-Ingestion.md
@@ -1,42 +1,42 @@
---
-title: "Content Ingestion"
-type: concept
-last_updated: 2026-04-22
---
-
-## Definition
-
-内容摄取（Content Ingestion）：将外部内容（网页、PDF、YouTube 字幕、推文等）通过自动化解析提取为结构化文本，并分块（Chunking）入库供检索系统使用的过程。是 [[Knowledge-Base-RAG]] 工作流的第一步——没有高质量的内容摄取，就没有可搜索的知识库。
-
-## Ingestion Pipeline
-
-```
-URL 输入 → 内容获取 → 格式解析 → 文本清洗 → 分块（Chunking）→ Embedding → 向量入库
-```
-
-## Supported Content Types
-
-| 类型 | 解析方式 | 挑战 |
-|------|----------|------|
-| 网页 | HTML 解析 / Firecrawl / Jina Reader | 广告/导航移除、JS 渲染内容 |
-| PDF | marker / pdfminer / PyMuPDF | 表格、多栏布局、扫描件 OCR |
-| YouTube | Transcript API / Whisper | 自动字幕质量、噪音处理 |
-| 推文/Tweet | Twitter API / 第三方抓取 | 字符限制、线程重组 |
-| Slack 消息 | Slack API | 富文本格式、附件分离 |
-
-## Chunking Strategies
-
-详见 [[Knowledge-Base-RAG]] 概念页。
-
-## Why It Matters
-
-Garbage in, garbage out——即使 Embedding 模型再强大，如果摄取内容充满噪音（广告、HTML 标签、格式乱码），检索质量也会大幅下降。好的摄取 pipeline 需要：
-1. 内容纯净（去广告/去导航/去脚注）
-2. 格式保留（标题层级、列表结构有助于理解）
-3. 元数据保留（URL、标题、日期、来源类型）
-
-## Connections
-
- [[Knowledge-Base-RAG]] — Content Ingestion 是 RAG 工作流的第一个环节
- [[Semantic-Search]] — 摄入的内容最终通过语义搜索被检索
- [[web_fetch]] — 内容获取的工具技能
+---
+title: "Content Ingestion"
+type: concept
+last_updated: 2026-04-22
+---
+
+## Definition
+
+内容摄取（Content Ingestion）：将外部内容（网页、PDF、YouTube 字幕、推文等）通过自动化解析提取为结构化文本，并分块（Chunking）入库供检索系统使用的过程。是 [[Knowledge-Base-RAG]] 工作流的第一步——没有高质量的内容摄取，就没有可搜索的知识库。
+
+## Ingestion Pipeline
+
+```
+URL 输入 → 内容获取 → 格式解析 → 文本清洗 → 分块（Chunking）→ Embedding → 向量入库
+```
+
+## Supported Content Types
+
+| 类型 | 解析方式 | 挑战 |
+|------|----------|------|
+| 网页 | HTML 解析 / Firecrawl / Jina Reader | 广告/导航移除、JS 渲染内容 |
+| PDF | marker / pdfminer / PyMuPDF | 表格、多栏布局、扫描件 OCR |
+| YouTube | Transcript API / Whisper | 自动字幕质量、噪音处理 |
+| 推文/Tweet | Twitter API / 第三方抓取 | 字符限制、线程重组 |
+| Slack 消息 | Slack API | 富文本格式、附件分离 |
+
+## Chunking Strategies
+
+详见 [[Knowledge-Base-RAG]] 概念页。
+
+## Why It Matters
+
+Garbage in, garbage out——即使 Embedding 模型再强大，如果摄取内容充满噪音（广告、HTML 标签、格式乱码），检索质量也会大幅下降。好的摄取 pipeline 需要：
+1. 内容纯净（去广告/去导航/去脚注）
+2. 格式保留（标题层级、列表结构有助于理解）
+3. 元数据保留（URL、标题、日期、来源类型）
+
+## Connections
+
+- [[Knowledge-Base-RAG]] — Content Ingestion 是 RAG 工作流的第一个环节
+- [[Semantic-Search]] — 摄入的内容最终通过语义搜索被检索
+- [[web_fetch]] — 内容获取的工具技能