相比于传统的RNN/LSTM和CNN，Transformer的核心优势和劣势分别是什么？

Question

Accepted Answer

相比于传统的 RNN/LSTM 和 CNN，Transformer 凭借其核心的自注意力机制（Self-Attention），彻底改变了深度学习（尤其是自然语言处理和计算机视觉）的格局。 以下是 Transformer 相比于 RNN/LSTM 和 CNN 的核心优势与劣势的详细对比： --- 一、 Transformer 的核心优势 1. 彻底解决“长距离依赖”问题（相比 RNN/LSTM 和 CNN） RNN/LSTM 的痛点：信息是线性、顺序传递的（$t1 \rightarrow t2 \rightarrow t3$）。即使是 LSTM 引入了门控机制，当序列很长时，早期的信息仍然会衰减或丢失（记忆瓶颈）。 CNN 的痛点：卷积核每次只能看到局部的窗口（Local Receptive Field）。要捕捉相距较远的两个词的关系，需要堆叠非常深的卷积层。 Transformer 的优势：自注意力机制让序列中的任意两个位置的距离恒定为 $O(1)$。无论两个词相隔多远，它们都可以直接进行“对话”并计算关联度，拥有真正的全局视野（Global Context）。 2. 极高的并行...