混合检索(Hybrid Search) 是目前在搜索技术和 RAG(检索增强生成)应用中非常流行且有效的一种策略。 简单来说,混合检索就是同时使用“关键词检索(Keyword Search)”和“向量检索(Vector Search)”两种技术,并将它们的搜索结果进行加权融合,从而得到更精准的最终结果。 为了理解为什么要这样做,我们需要先了解这两种技术各自的优缺点,以及它们是如何互补的。 --- 1. 两种检索方式的对比 A. 关键词检索(基于 BM25) 这是传统的搜索引擎技术(如早期的 Google 或 Lucene/Elasticsearch)。 原理:基于字面匹配。它计算查询词在文档中出现的频率(TF)和稀有度(IDF)。 优点: 精确匹配能力强:对于专有名词、人名、产品型号、错误代码(如 "Error 503")、缩写非常敏感。 无需训练:直接基于统计学,不需要复杂的模型训练。 缺点: 不懂语义:它不理解“苹果”是水果还是手机,也不理解“开心”和“高兴”是同义词。如果文档里写的是“汽车”,你搜“轿车”,可能就搜不到。 B. 向量检索(Vector Search / De...