GPT系列(以及目前市面上绝大多数大语言模型,如LLaMA、Qwen、Mistral等)之所以只选择使用 Transformer 的 Decoder(解码器) 结构,主要是由其 核心任务目标(自回归生成)、架构的简洁性 以及 对“上下文学习(In-Context Learning)”的天然支持 等多方面因素决定的。 具体来说,可以归结为以下几个核心原因: 1. 核心任务的契合:自回归生成(Autoregressive Generation) GPT的核心训练目标非常简单:“根据上文,预测下一个词(Next-token prediction)”。 Encoder(编码器)的特点:如 BERT,使用的是双向注意力机制(Bidirectional Attention),模型在处理一个词时能同时看到它前面和后面的词。这非常适合“阅读理解”或“填空”任务,但无法用于顺畅的文本生成,因为生成文本时,未来的词是未知的,不能“提前偷看”。 Decoder(解码器)的特点:自带 掩码自注意力机制(Masked Self-Attention)。它强制模型在预测第 $t$ 个词时,只能看到前 $t-1...