27 lines
1.3 KiB
Markdown
27 lines
1.3 KiB
Markdown
---
|
||
title: "混合搜索"
|
||
type: concept
|
||
tags: [ai, search, vector, bm25, rag]
|
||
sources: [google-神级生产力工具-所有-github-开源平替都找到了]
|
||
last_updated: 2026-04-23
|
||
---
|
||
|
||
## Definition
|
||
混合搜索(Hybrid Search)结合语义搜索(向量相似度)和全文搜索(BM25/关键词匹配)两种技术,并通过重排序算法(Re-ranking)整合结果,兼顾语义理解深度和关键词精确度。
|
||
|
||
## Why Hybrid?
|
||
- **语义搜索擅长**:理解意图、同义词扩展、语义相关但不含关键词的内容
|
||
- **BM25 擅长**:精确关键词匹配、人名/产品名/技术术语、查询词密集出现的内容
|
||
- **两者结合**:互相补充,提升整体召回率和精确率
|
||
|
||
## Technical Pipeline (SurfSense 方案)
|
||
1. **语义搜索**:向量相似度初筛,获取语义相关候选集
|
||
2. **BM25 全文搜索**:关键词精确匹配,补充专有名词召回
|
||
3. **融合排序**:使用 RRF(Reciprocal Rank Fusion)等算法合并两个结果集
|
||
4. **重排序(Re-ranking)**:使用更精准的模型对 top 结果二次排序
|
||
|
||
## Related Concepts
|
||
- [[语义搜索]] — 混合搜索的一个组成维度
|
||
- [[重排序]](Re-ranking)— 对混合结果集进行精排
|
||
- [[RAG]] — 混合搜索常作为 RAG 系统的检索层
|