评估大模型 Agent(智能体)的性能是一个比评估单纯的大语言模型(LLM)更复杂、更系统化的工程。因为 Agent 不仅要生成文本,还需要规划(Planning)、使用工具(Tool Use)、记忆(Memory)以及与环境交互(Environment Interaction)。 以下是评估和评测大模型 Agent 性能的完整框架,分为评估维度、评估方法、关键指标、主流数据集/基准以及面临的挑战五个部分。 --- 一、 评估维度 (Dimensions) 评估 Agent 不能只看结果,必须拆解其执行过程。通常分为以下几个核心维度: 1. 任务完成能力 (Task Success) 最终结果正确性: Agent 是否达成了用户设定的目标?(例如:是否成功预订了机票,代码是否跑通)。 子目标完成度: 对于复杂任务,Agent 是否完成了拆解后的中间步骤。 2. 推理与规划能力 (Reasoning & Planning) 思维链 (Chain of Thought) 质量: Agent 的思考过程是否逻辑严密? 自我修正 (Self-Reflection): 当遇到错误时,Age...