评估 AI Agent(智能体)的推理质量比单纯评估 LLM(大语言模型)要复杂得多。LLM 的评估通常关注文本生成的准确性、流畅性和知识覆盖,而 Agent 的评估核心在于“解决问题的过程”和“行动的有效性”。 Agent 的推理不仅仅是生成文字,它包含:感知 $\rightarrow$ 规划 $\rightarrow$ 行动(工具调用) $\rightarrow$ 观察 $\rightarrow$ 反思 $\rightarrow$ 修正 的闭环。 以下是一个系统性的 Agent 推理质量评估框架: --- 一、 评估维度的拆解 (Dimensions) 要评估推理质量,不能只看结果(Outcome),必须看过程(Process/Trajectory)。 1. 规划能力 (Planning & Decomposition) 这是 Agent 推理的核心。 任务拆解粒度: Agent 是否将复杂目标拆解为合理、可执行的子步骤? 逻辑依赖性: 步骤之间的顺序是否符合逻辑(例如,必须先搜索信息,再基于信息写代码)? 冗余度: 是否生成了无效或重复的步骤? 2. 工具使用推理 (Too...