BERT是如何利用Transformer的Encoder进行预训练的？

Question

Accepted Answer

BERT（Bidirectional Encoder Representations from Transformers）的核心创新在于它完全抛弃了Transformer的Decoder部分，仅仅使用了Encoder部分，并在海量的无标签文本上通过两个巧妙的预训练任务（MLM 和 NSP）来学习语言的深层双向表示。 要理解BERT是如何利用Transformer Encoder进行预训练的，我们可以按照“输入构建 -> Encoder处理 -> 预训练任务 -> 参数更新”的逻辑链路来拆解： --- 第一步：构建输入表示（Input Representation） Transformer Encoder本身没有顺序概念，也不能直接处理文本，所以BERT首先将文本转化为丰富的向量表示。BERT的输入是三个Embedding的求和： 1. Token Embeddings（词嵌入）： 使用WordPiece分词算法（例如将"playing"分成"play"和"##ing"），并将每个词元转化为向量。 2. Segment Embeddings（段嵌入）： 用于区分当前的词属于第一个句...