在 RAG 系统中，如何界定“知识边界”，即如何让模型知道何时该回答，何时该说“不知道”？

Question

Accepted Answer

在 RAG（检索增强生成）系统中，界定“知识边界”的核心挑战在于抑制大模型（LLM）的“由于训练数据带来的内部知识（Parametric Memory）”，并强制其仅依赖检索到的外部上下文（Non-Parametric Memory）进行回答。 如果检索到的内容无法回答问题，系统必须诚实地输出“不知道”，而不是利用模型自带的知识去“编造”或“猜测”。 以下是界定这一边界的五个层面的技术方案，从检索前到生成后层层设防： 1. 检索层：设置“物理”阈值 (The Gatekeeper) 这是第一道防线。如果检索回来的内容本身就与问题不相关，那么根本就不应该让 LLM 尝试回答。 相似度阈值截断 (Similarity Thresholding): 在向量检索（Vector Search）阶段，设置一个分数的下限（如 Cosine Similarity < 0.7）。 逻辑： 如果检索到的 Top-K 文档的相似度分数都低于该阈值，系统直接判定“知识库中无相关信息”，直接返回预设的“不知道”话术，完全跳过 LLM 生成环节。 重排序模型 (Rerank) 过滤: 向量检索有时只能捕捉语...