在完全不使用位置编码的情况下，Transformer等价于什么模型？

Question

Accepted Answer

在完全不使用位置编码（Positional Encoding）的情况下，Transformer 就丧失了感知输入元素先后顺序的能力。从数学和模型架构的角度来看，它等价于以下几种模型： 1. 深度/上下文“词袋模型”（Deep/Contextual Bag-of-Words） 在自然语言处理（NLP）的视角下，失去了位置信息的 Transformer 会退化成一个极其复杂的词袋模型（Bag-of-Words）。 现象： 对于该模型来说，“狗咬人”（Dog bites man）和“人咬狗”（Man bites dog）是完全相同的输入集合。 区别于传统词袋： 传统的词袋模型只是简单地统计词频或将词向量相加。而无位置编码的 Transformer 是一个“上下文相关的词袋模型”——它依然能通过自注意力机制发现“狗”和“咬”同时出现时的关联，但它不知道谁在前面、谁在后面。 2. 全连接图上的“图注意力网络”（GAT on a Fully-Connected Graph） 从图神经网络（GNN）的视角来看，Transformer 本质上是在图上进行信息传递。 等价性： 如果没有位置编码，输...