在完全不使用位置编码(Positional Encoding)的情况下,Transformer 就丧失了感知输入元素先后顺序的能力。从数学和模型架构的角度来看,它等价于以下几种模型: 1. 深度/上下文“词袋模型”(Deep/Contextual Bag-of-Words) 在自然语言处理(NLP)的视角下,失去了位置信息的 Transformer 会退化成一个极其复杂的词袋模型(Bag-of-Words)。 现象: 对于该模型来说,“狗咬人”(Dog bites man)和“人咬狗”(Man bites dog)是完全相同的输入集合。 区别于传统词袋: 传统的词袋模型只是简单地统计词频或将词向量相加。而无位置编码的 Transformer 是一个“上下文相关的词袋模型”——它依然能通过自注意力机制发现“狗”和“咬”同时出现时的关联,但它不知道谁在前面、谁在后面。 2. 全连接图上的“图注意力网络”(GAT on a Fully-Connected Graph) 从图神经网络(GNN)的视角来看,Transformer 本质上是在图上进行信息传递。 等价性: 如果没有位置编码,输...