这是一个非常前沿且实用的问题。随着 RAG(检索增强生成)系统的普及,如何评估它们成为了一个痛点。传统指标(如 BLEU、ROUGE)只能比对字面重合度,无法理解语义,而人工评估又太贵太慢。 LLM-as-a-Judge 应运而生。 以下我将分两部分详细解答:首先解释什么是 LLM-as-a-Judge,然后详细拆解如何利用 GPT-4 这样的强模型来评估 RAG 系统。 --- 第一部分:什么是 LLM-as-a-Judge? 定义: LLM-as-a-Judge 是一种评估机制,它利用强大的大语言模型(如 GPT-4)作为“裁判”或“老师”,来评估其他模型(通常是较弱的模型或经过微调的小模型)生成的文本质量。 核心逻辑: 这就好比让一位大学教授(GPT-4)去批改小学生(弱模型)的试卷。教授不仅能看出答案对不对,还能判断逻辑是否通顺、是否跑题、是否有创造力。 三种常见的评估模式: 1. 点对点打分 (Pointwise): 给模型一个输入和输出,让裁判打分(例如 1-5 分)。 2. 成对比较 (Pairwise): 给裁判看两个模型的输出(模型 A vs 模型 B),问它“...