Causal Language Modeling (CLM) 和 Masked Language Modeling (MLM) 是自然语言处理(NLP)预训练中两种最主流的自监督学习范式。 它们分别代表了 GPT系列(CLM)和 BERT系列(MLM)。两者最本质的区别在于信息的流动方向(可见性)以及由此决定的概率计算方式。 以下是它们在五个维度的本质区别深度解析: 1. 核心机制与注意力可见性 (Attention Visibility) 这是两者最根本的区别,决定了模型的架构设计。 CLM (因果语言建模 / 自回归 Autoregressive): 机制: 单向(Unidirectional)。模型在预测第 $t$ 个词时,只能看到 $t$ 之前的信息($1$ 到 $t-1$),绝对不能看到 $t$ 及其之后的信息。 实现: 在 Transformer 的 Self-Attention 层中使用 Causal Mask(一个上三角为负无穷的矩阵),强制屏蔽掉“未来”的词。 直觉: 就像人类按顺序写文章,写当下这个字时,还不知道下一个字是什么。 MLM (掩码语言建模 / 自...