BERT(Bidirectional Encoder Representations from Transformers)的核心创新在于它完全抛弃了Transformer的Decoder部分,仅仅使用了Encoder部分,并在海量的无标签文本上通过两个巧妙的预训练任务(MLM 和 NSP)来学习语言的深层双向表示。 要理解BERT是如何利用Transformer Encoder进行预训练的,我们可以按照“输入构建 -> Encoder处理 -> 预训练任务 -> 参数更新”的逻辑链路来拆解: --- 第一步:构建输入表示(Input Representation) Transformer Encoder本身没有顺序概念,也不能直接处理文本,所以BERT首先将文本转化为丰富的向量表示。BERT的输入是三个Embedding的求和: 1. Token Embeddings(词嵌入): 使用WordPiece分词算法(例如将"playing"分成"play"和"##ing"),并将每个词元转化为向量。 2. Segment Embeddings(段嵌入): 用于区分当前的词属于第一个句...