Transformer中有哪三种不同的Attention应用场景（Encoder中、Decoder中、Encoder-Decoder之间）

Question

Accepted Answer

在Transformer模型中，注意力机制（Attention Mechanism）是其核心灵魂。具体来说，Transformer使用的是多头注意力（Multi-Head Attention），它通过计算查询（Query, Q）、键（Key, K）和值（Value, V）之间的映射关系来提取特征。 根据 Q、K、V 的来源以及是否使用掩码（Mask），Transformer将Attention巧妙地应用在了三个不同的场景中： --- 1. 编码器中的自注意力（Encoder Self-Attention） 位置： 位于 Encoder 的每一层中（第一个子层）。 Q、K、V 的来源： 同源。Q、K、V 均来自 Encoder 前一层的输出（对于第一层则是输入序列的词嵌入加上位置编码）。即 $Q = K = V$。 掩码（Masking）： 不使用因果掩码（只使用 Padding Mask 忽略填充位）。 作用与意义： 它允许输入序列中的每一个词去关注序列中的所有其他词（双向上下文）。 目的： 帮助模型理解输入序列中词与词之间的语法关系、语义依赖（例如指代消解）。即使两个词在句子中...

Attention 场景	中文名称	Q 的来源	K 和 V 的来源	是否屏蔽未来信息 (Causal Mask)	核心功能
Encoder 中	自注意力 (Self-Attention)	上一层 Encoder 输出	上一层 Encoder 输出	否 (可看全局)	理解输入序列的全局上下文和内部依赖。
Decoder 中	掩码自注意力 (Masked Self-Attention)	上一层 Decoder 输出	上一层 Decoder 输出	是 (只能看过去)	理解已生成序列的上下文，防止信息穿越。
Encoder-Decoder 之间	交叉注意力 (Cross-Attention)	Decoder 当前层	Encoder 最终输出	否 (可看全局输入)	在生成当前词时，寻找输入序列中的相关信息（对齐）。

播面

Transformer中有哪三种不同的Attention应用场景（Encoder中、Decoder中、Encoder-Decoder之间）

1. 编码器中的自注意力（Encoder Self-Attention）

2. 解码器中的掩码自注意力（Decoder Masked Self-Attention）

3. 编码器-解码器之间的交叉注意力（Encoder-Decoder Cross-Attention）

总结对比表

你好！我是 Bomian 助手