Transformer 模型由 Google 团队在 2017 年的经典论文《Attention Is All You Need》中提出。它彻底抛弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)结构,完全基于注意力机制(Attention Mechanism)来处理序列数据。 Transformer 的整体架构是一个经典的 Encoder-Decoder(编码器-解码器) 结构。 为了让你更清晰地理解,我们可以将其分为三个层面来剖析:宏观架构、核心组件以及数据流向。 --- 1. 宏观架构 (The Big Picture) 从宏观上看,Transformer 由左右两部分组成: 左侧:Encoder(编码器) 作用:负责“理解”输入序列(例如一句话)。它将输入转换成一组包含丰富语义信息的向量(Context Vector)。 特点:并行计算,一次性通过所有输入。 右侧:Decoder(解码器) 作用:负责“生成”输出序列。它根据 Encoder 提供的语义信息以及之前已经生成的词,逐个预测下一个词。 特点:自回归(Autoregressive),即上一步的输出是下一步的...