大模型的评估(LLM Evaluation)是一个非常复杂且快速发展的领域。由于大模型具备生成性、多任务和不可预测性,传统的单一指标(如准确率)往往无法全面衡量其能力。 目前主流的大模型评估方案通常从评估方法、评估维度、数据集/榜单、评估指标以及评估框架这几个方面来构建。 以下是详细的评估方案梳理: --- 一、 评估方法 (Evaluation Methods) 根据“谁来评”和“怎么评”,主要分为以下三类: 1. 人工评估 (Human Evaluation) 这是最准确但也最昂贵、最慢的方法。通常用于对齐(Alignment)阶段或最终验收。 专家打分: 由领域专家(如医生、程序员)针对特定问题评估回答的准确性。 众包打分: 普通用户对回答的流畅度、相关性进行打分。 Elo 对战 (Side-by-Side, SBS): 类似于 LMSYS Chatbot Arena。让模型 A 和模型 B 回答同一个问题,人类选择更好的一个,通过 Elo 积分系统排名。 2. 自动化基准测试 (Automated Benchmarks) 利用标准化的数据集进行测试,主要用于评估基础模型(...