评估一个大模型(LLM)的好坏是一个复杂且多维度的过程,因为大模型不仅是“填空机”,更是具备推理、编程、创作和对话能力的通用智能体。 评估通常分为自动化评估(基于 Benchmark)和人工评估(Human Evaluation / Arena)两大类。 以下是评估大模型的核心维度,以及你提到的几个主流 Benchmark 的详细解读。 --- 一、 核心评估维度与主流 Benchmark 为了全面衡量模型能力,学术界和工业界设计了针对不同能力的测试集。 1. 综合知识与理解能力:MMLU (Massive Multitask Language Understanding) 简介:这是目前最权威、最流行的综合能力测试集。它包含 57 个学科,涵盖 STEM(科学、技术、工程、数学)、人文科学、社会科学等领域。题目类型为多项选择题。 难度:从初级水平到高级专业水平(如法律、医学、物理)。 评估意义:它衡量模型是否具备“世界知识”以及解决广泛问题的能力。如果一个模型在 MMLU 上得分很高(目前顶尖模型如 GPT-4o, Gemini 1.5 Pro 得分通常在 85%-90% 左右...