Transformer能够实现高度并行化计算的根本原因,在于它彻底摒弃了传统序列模型(如RNN、LSTM)的递归(时序)依赖结构,将序列内部的关联计算转化为了全局的矩阵乘法运算。 具体来说,这种高度并行化是由以下几个核心机制共同决定的: 1. 消除时序计算的依赖(核心对比) 传统RNN的瓶颈: 在RNN中,计算当前时刻的隐藏状态 $ht$ 必须依赖前一时刻的隐藏状态 $h{t-1}$(即 $ht = f(xt, h{t-1})$)。这意味着对于长度为 $N$ 的序列,必须进行 $N$ 次串行计算,后一个词必须等待前一个词处理完毕。 Transformer的突破: Transformer完全抛弃了这种链式结构。在处理一个序列时,序列中的每一个词(Token)都可以同时与其他所有词进行交互,不存在“先后等待”的关系。序列长度 $N$ 的处理时间在理论上被压缩到了 $O(1)$ 的时间步。 2. 自注意力机制(Self-Attention)的矩阵化 Transformer的核心是自注意力机制。它通过查询(Query)、键(Key)和值(Value)来计算词与词之间的相关性。 公式为:$...