相比于传统的 RNN/LSTM 和 CNN,Transformer 凭借其核心的自注意力机制(Self-Attention),彻底改变了深度学习(尤其是自然语言处理和计算机视觉)的格局。 以下是 Transformer 相比于 RNN/LSTM 和 CNN 的核心优势与劣势的详细对比: --- 一、 Transformer 的核心优势 1. 彻底解决“长距离依赖”问题(相比 RNN/LSTM 和 CNN) RNN/LSTM 的痛点:信息是线性、顺序传递的($t1 \rightarrow t2 \rightarrow t3$)。即使是 LSTM 引入了门控机制,当序列很长时,早期的信息仍然会衰减或丢失(记忆瓶颈)。 CNN 的痛点:卷积核每次只能看到局部的窗口(Local Receptive Field)。要捕捉相距较远的两个词的关系,需要堆叠非常深的卷积层。 Transformer 的优势:自注意力机制让序列中的任意两个位置的距离恒定为 $O(1)$。无论两个词相隔多远,它们都可以直接进行“对话”并计算关联度,拥有真正的全局视野(Global Context)。 2. 极高的并行...