Masked Self-Attention(掩码自注意力) 是 Transformer 模型(特别是生成式模型如 GPT 系列)中的一个核心机制。 简单来说,它的作用是:在预测下一个词时,把“未来”的词遮挡住(Mask),让模型只能看到“过去”和“现在”的词,防止模型“作弊”。 为了让你彻底理解,我们可以从“为什么需要它”和“它是如何工作的”两个方面来拆解。 --- 1. 为什么需要 Mask(掩码)? 在自然语言处理中,文本生成(比如 ChatGPT 说话)是一个自回归(Autoregressive)的过程,也就是逐词生成: 1. 输入“我”,预测“爱” 2. 输入“我 爱”,预测“中” 3. 输入“我 爱 中”,预测“国” 在模型真正使用(推理)时,它是按顺序一个词一个词往外蹦的,自然看不到未来的词。 但是!在模型训练时,为了追求效率,我们通常会把完整的句子(如“我 爱 中 国”)一次性喂给模型。 如果不加限制(即使用普通的 Self-Attention),模型在处理“我”的时候,注意力机制会瞬间看到后面的“爱”、“中”、“国”。这就相当于考试时提前偷看了参考答案,导致模型学...