预训练任务中，Causal Language Modeling (CLM) 和 Masked Language M...

知识点图片

Causal Language Modeling (CLM) 和 Masked Language Modeling (MLM) 是自然语言处理（NLP）预训练中两种最主流的自监督学习范式。

它们分别代表了 GPT系列（CLM）和 BERT系列（MLM）。两者最本质的区别在于信息的流动方向（可见性）以及由此决定的概率计算方式。

以下是它们在五个维度的本质区别深度解析：

这是两者最根本的区别，决定了模型的架构设计。

CLM (因果语言建模 / 自回归 Autoregressive):
- 机制： 单向（Unidirectional）。模型在预测第 $t$ 个词时，只能看到 $t$ 之前的信息（ $1$ 到 $t-1$ ），绝对不能看到 $t$ 及其之后的信息。
- 实现： 在 Transformer 的 Self-Attention 层中使用 Causal Mask（一个上三角为负无穷的矩阵），强制屏蔽掉“未来”的词。
- 直觉： 就像人类按顺序写文章，写当下这个字时，还不知道下一个字是什么。
MLM (掩码语言建模 / 自编码 Autoencoding):
- 机制： 双向（Bidirectional）。模型在预测被掩盖（Mask）的词时，可以同时看到该词左边和右边的上下文。
- 实现： Attention 矩阵是全可见的，没有屏蔽。但是输入序列中约 15% 的 token 被替换成了 [MASK] 符号。
- 直觉： 就像做英语试卷的“完形填空”，你可以根据前后文来推断中间缺少的词。

从数学公式上看，两者的优化目标不同：

CLM: 旨在建模整个序列的联合概率。它将序列概率分解为条件概率的乘积。
$P(x) = \prod_{t=1}^{T} P(x_t | x_{<t})$
- 目标： 最大化给定上文预测下一个词的似然度。
MLM: 旨在根据未被掩盖的上下文重建被掩盖的词。假设被掩盖的词集合为 $M$ ，未掩盖的为 $\setminus M$ 。
$P(x) = \prod_{x \in M} P(x | x_{\setminus M})$
- 目标： 最大化给定上下文（双向）预测 Mask 词的似然度。注意：这里假设了 Mask 词之间是相互独立的（这是 MLM 的一个理论缺陷，即忽视了被 Mask 词之间的依赖关系）。

由于机制的不同，它们擅长的下游任务截然不同：

CLM (生成式):
- 强项： 文本生成 (NLG)。因为它的训练方式完全模拟了生成的过（一个接一个预测）。
- 应用： 创意写作、代码生成、对话系统、逻辑推理（Chain-of-Thought）。
- 代表： GPT-3, GPT-4, Llama, Claude.
MLM (理解式):
- 强项： 文本理解 (NLU)。因为双向视野能更好地捕捉词与词之间的深层句法和语义关系，生成的 Embedding 质量通常更高。
- 应用： 文本分类、情感分析、命名实体识别 (NER)、问答系统 (提取式)。
- 代表： BERT, RoBERTa, DeBERTa.

CLM: 信号稠密。
- 对于长度为 $T$ 的序列，模型会进行 $T$ 次预测（预测 $x_2$ 用 $x_1$ ，预测 $x_3$ 用 $x_{1,2}$ ...）。每一个 token 都是训练目标，数据利用率高。
MLM: 信号稀疏。
- 通常只有 15% 的 token 被 Mask 掉。这意味着在一个 batch 中，模型只能从这 15% 的 token 中获得 loss 信号，其余 85% 的 token 只是作为上下文输入（不计算 loss）。因此，MLM 通常需要更多的训练步数才能收敛。

这就解释了为什么现在的 LLM（大语言模型）几乎全都是 CLM 架构：

虽然 MLM 在“理解”上有天然优势，但 CLM 是通用的。

右滑查看面试常问

播面