什么是 Masked Self-Attention（掩码自注意力）？

Question

Accepted Answer

Masked Self-Attention（掩码自注意力） 是 Transformer 模型（特别是生成式模型如 GPT 系列）中的一个核心机制。 简单来说，它的作用是：在预测下一个词时，把“未来”的词遮挡住（Mask），让模型只能看到“过去”和“现在”的词，防止模型“作弊”。 为了让你彻底理解，我们可以从“为什么需要它”和“它是如何工作的”两个方面来拆解。 --- 1. 为什么需要 Mask（掩码）？ 在自然语言处理中，文本生成（比如 ChatGPT 说话）是一个自回归（Autoregressive）的过程，也就是逐词生成： 1. 输入“我”，预测“爱” 2. 输入“我 爱”，预测“中” 3. 输入“我 爱 中”，预测“国” 在模型真正使用（推理）时，它是按顺序一个词一个词往外蹦的，自然看不到未来的词。 但是！在模型训练时，为了追求效率，我们通常会把完整的句子（如“我 爱 中 国”）一次性喂给模型。 如果不加限制（即使用普通的 Self-Attention），模型在处理“我”的时候，注意力机制会瞬间看到后面的“爱”、“中”、“国”。这就相当于考试时提前偷看了参考答案，导致模型学...