在构建基于大语言模型(LLM)的 Agent(智能体) 系统时,选择哪种注意力机制(MHA、GQA、MQA)主要取决于推理性能(Latency/Throughput)、显存占用(KV Cache)与模型生成质量(Accuracy)之间的权衡。 Agent 场景通常涉及多轮对话、长上下文(RAG)、工具调用(Tool Use)和复杂推理,这使得推理效率尤为关键。 以下是针对 MHA、GQA、MQA 在 Agent 场景下的详细选择策略: --- 1. 机制简述与核心差异 | 特性 | MHA (Multi-Head Attention) | GQA (Grouped-Query Attention) | MQA (Multi-Query Attention) | | :--- | :--- | :--- | :--- | | 结构 | Query 头数 = KV 头数 ($N:N$) | Query 头数 > KV 头数 (分组共享, $N:G$) | 只有 1 个 KV 头 ($N:1$) | | 显存占用 (KV Cache) | 极大 | 中等 (约为 MHA 的 $1/G$...