Transformer在处理输入序列时，是如何将文本转化为模型可以理解的向量的？

Question

Accepted Answer

Transformer 将自然语言文本转化为模型可以理解的向量，是一个经过多步处理的流水线过程。因为计算机本质上只能处理数字，而 Transformer 的核心机制（自注意力机制）又没有处理序列顺序的能力，所以这个转化过程必须同时解决“词汇的数学表示”和“顺序信息的保留”两个问题。 具体来说，这个过程可以分为以下 5 个核心步骤： 1. 分词（Tokenization）—— 拆解文本 首先，模型需要将连续的文本字符串切分成一个个基本的处理单元，称为 Token。 过去的方法：按空格拆成单独的词（Word-level），或者拆成单个字母/汉字（Character-level）。 Transformer 通常使用的方法：子词分词（Subword Tokenization），如 BPE、WordPiece。这种方法能有效解决生僻词（OOV）问题，同时保持语义。 举例： 输入句子： 分词后可能变成： 2. 词表映射（Vocabulary Mapping）—— 转化为数字 分词结束后，模型会查阅一个预先构建好的“字典”（Vocabulary），把每一个 Token 映射成一个唯一的整数索引...