Transformer中有哪三种不同的Attention应用场景（Encoder中、Decoder中、Encoder-Decoder之间）

Question

Accepted Answer

在Transformer模型中，注意力机制（Attention Mechanism）是其核心灵魂。具体来说，Transformer使用的是多头注意力（Multi-Head Attention），它通过计算查询（Query, Q）、键（Key, K）和值（Value, V）之间的映射关系来提取特征。 根据 Q、K、V 的来源以及是否使用掩码（Mask），Transformer将Attention巧妙地应用在了三个不同的场景中： --- 1. 编码器中的自注意力（Encoder Self-Attention） 位置： 位于 Encoder 的每一层中（第一个子层）。 Q、K、V 的来源： 同源。Q、K、V 均来自 Encoder 前一层的输出（对于第一层则是输入序列的词嵌入加上位置编码）。即 $Q = K = V$。 掩码（Masking）： 不使用因果掩码（只使用 Padding Mask 忽略填充位）。 作用与意义： 它允许输入序列中的每一个词去关注序列中的所有其他词（双向上下文）。 目的： 帮助模型理解输入序列中词与词之间的语法关系、语义依赖（例如指代消解）。即使两个词在句子中...