“幻觉率”(Hallucination Rate) 是衡量大语言模型(LLM)生成内容中包含错误、无中生有或与事实/上下文不符信息的频率指标。 在 RAG(检索增强生成) 场景下,幻觉率的定义比通用场景更为严格。RAG 的核心目的是让模型基于检索到的参考文档(Context)回答问题,因此,RAG 中的幻觉主要指模型生成的答案没有遵循检索到的上下文,或者捏造了上下文中不存在的信息。 以下是关于幻觉率的详细定义以及在 RAG 场景下具体的量化方法: --- 一、 RAG 场景下的“幻觉”分类 在量化之前,必须明确 RAG 中的幻觉主要分为两类: 1. 忠实度幻觉(Unfaithfulness / Grounding Failure): 定义: 模型生成的答案与检索到的上下文(Context)不一致,或者答案中的信息在上下文中找不到依据。 例子: 文档说“产品A的价格是100元”,模型回答“产品A的价格是200元”。 这是 RAG 评估的核心: 即使模型利用其内部训练数据回答正确了(例如常识),但如果该信息不在检索到的文档中,通常也被视为 RAG 系统的“幻觉”(因为它没有由检索内容...