Transformer能够实现高度并行化计算的根本原因是什么？

Question

Accepted Answer

Transformer能够实现高度并行化计算的根本原因，在于它彻底摒弃了传统序列模型（如RNN、LSTM）的递归（时序）依赖结构，将序列内部的关联计算转化为了全局的矩阵乘法运算。 具体来说，这种高度并行化是由以下几个核心机制共同决定的： 1. 消除时序计算的依赖（核心对比） 传统RNN的瓶颈： 在RNN中，计算当前时刻的隐藏状态 $ht$ 必须依赖前一时刻的隐藏状态 $h{t-1}$（即 $ht = f(xt, h{t-1})$）。这意味着对于长度为 $N$ 的序列，必须进行 $N$ 次串行计算，后一个词必须等待前一个词处理完毕。 Transformer的突破： Transformer完全抛弃了这种链式结构。在处理一个序列时，序列中的每一个词（Token）都可以同时与其他所有词进行交互，不存在“先后等待”的关系。序列长度 $N$ 的处理时间在理论上被压缩到了 $O(1)$ 的时间步。 2. 自注意力机制（Self-Attention）的矩阵化 Transformer的核心是自注意力机制。它通过查询（Query）、键（Key）和值（Value）来计算词与词之间的相关性。 公式为：$...