在Transformer模型中,注意力机制(Attention Mechanism)是其核心灵魂。具体来说,Transformer使用的是多头注意力(Multi-Head Attention),它通过计算查询(Query, Q)、键(Key, K)和值(Value, V)之间的映射关系来提取特征。 根据 Q、K、V 的来源以及是否使用掩码(Mask),Transformer将Attention巧妙地应用在了三个不同的场景中: --- 1. 编码器中的自注意力(Encoder Self-Attention) 位置: 位于 Encoder 的每一层中(第一个子层)。 Q、K、V 的来源: 同源。Q、K、V 均来自 Encoder 前一层的输出(对于第一层则是输入序列的词嵌入加上位置编码)。即 $Q = K = V$。 掩码(Masking): 不使用因果掩码(只使用 Padding Mask 忽略填充位)。 作用与意义: 它允许输入序列中的每一个词去关注序列中的所有其他词(双向上下文)。 目的: 帮助模型理解输入序列中词与词之间的语法关系、语义依赖(例如指代消解)。即使两个词在句子中...