什么是混合检索（Hybrid Search）？为什么要结合关键词检索（BM25）和向量检索？

Question

Accepted Answer

混合检索（Hybrid Search） 是目前在搜索技术和 RAG（检索增强生成）应用中非常流行且有效的一种策略。 简单来说，混合检索就是同时使用“关键词检索（Keyword Search）”和“向量检索（Vector Search）”两种技术，并将它们的搜索结果进行加权融合，从而得到更精准的最终结果。 为了理解为什么要这样做，我们需要先了解这两种技术各自的优缺点，以及它们是如何互补的。 --- 1. 两种检索方式的对比 A. 关键词检索（基于 BM25） 这是传统的搜索引擎技术（如早期的 Google 或 Lucene/Elasticsearch）。 原理：基于字面匹配。它计算查询词在文档中出现的频率（TF）和稀有度（IDF）。 优点： 精确匹配能力强：对于专有名词、人名、产品型号、错误代码（如 "Error 503"）、缩写非常敏感。 无需训练：直接基于统计学，不需要复杂的模型训练。 缺点： 不懂语义：它不理解“苹果”是水果还是手机，也不理解“开心”和“高兴”是同义词。如果文档里写的是“汽车”，你搜“轿车”，可能就搜不到。 B. 向量检索（Vector Search / De...

播面

什么是混合检索（Hybrid Search）？为什么要结合关键词检索（BM25）和向量检索？

1. 两种检索方式的对比

A. 关键词检索（基于 BM25）

B. 向量检索（Vector Search / Dense Retrieval）

2. 为什么要结合两者？（核心优势）

① 解决“语义”与“精确”的矛盾

② 弥补“长尾词”和“专有名词”的短板

③ 提高系统的鲁棒性（泛化能力）

3. 混合检索是如何工作的？（融合算法）

总结

你好！我是 Bomian 助手