GPT系列为什么只使用Transformer的Decoder结构？

Question

Accepted Answer

GPT系列（以及目前市面上绝大多数大语言模型，如LLaMA、Qwen、Mistral等）之所以只选择使用 Transformer 的 Decoder（解码器） 结构，主要是由其 核心任务目标（自回归生成）、架构的简洁性 以及 对“上下文学习（In-Context Learning）”的天然支持 等多方面因素决定的。 具体来说，可以归结为以下几个核心原因： 1. 核心任务的契合：自回归生成（Autoregressive Generation） GPT的核心训练目标非常简单：“根据上文，预测下一个词（Next-token prediction）”。 Encoder（编码器）的特点：如 BERT，使用的是双向注意力机制（Bidirectional Attention），模型在处理一个词时能同时看到它前面和后面的词。这非常适合“阅读理解”或“填空”任务，但无法用于顺畅的文本生成，因为生成文本时，未来的词是未知的，不能“提前偷看”。 Decoder（解码器）的特点：自带 掩码自注意力机制（Masked Self-Attention）。它强制模型在预测第 $t$ 个词时，只能看到前 $t-1...