预训练任务中，Causal Language Modeling (CLM) 和 Masked Language Modeling (MLM) 有什么本质区别？

Question

Accepted Answer

Causal Language Modeling (CLM) 和 Masked Language Modeling (MLM) 是自然语言处理（NLP）预训练中两种最主流的自监督学习范式。 它们分别代表了 GPT系列（CLM）和 BERT系列（MLM）。两者最本质的区别在于信息的流动方向（可见性）以及由此决定的概率计算方式。 以下是它们在五个维度的本质区别深度解析： 1. 核心机制与注意力可见性 (Attention Visibility) 这是两者最根本的区别，决定了模型的架构设计。 CLM (因果语言建模 / 自回归 Autoregressive): 机制： 单向（Unidirectional）。模型在预测第 $t$ 个词时，只能看到 $t$ 之前的信息（$1$ 到 $t-1$），绝对不能看到 $t$ 及其之后的信息。 实现： 在 Transformer 的 Self-Attention 层中使用 Causal Mask（一个上三角为负无穷的矩阵），强制屏蔽掉“未来”的词。 直觉： 就像人类按顺序写文章，写当下这个字时，还不知道下一个字是什么。 MLM (掩码语言建模 / 自...