Transformer 将自然语言文本转化为模型可以理解的向量,是一个经过多步处理的流水线过程。因为计算机本质上只能处理数字,而 Transformer 的核心机制(自注意力机制)又没有处理序列顺序的能力,所以这个转化过程必须同时解决“词汇的数学表示”和“顺序信息的保留”两个问题。 具体来说,这个过程可以分为以下 5 个核心步骤: 1. 分词(Tokenization)—— 拆解文本 首先,模型需要将连续的文本字符串切分成一个个基本的处理单元,称为 Token。 过去的方法:按空格拆成单独的词(Word-level),或者拆成单个字母/汉字(Character-level)。 Transformer 通常使用的方法:子词分词(Subword Tokenization),如 BPE、WordPiece。这种方法能有效解决生僻词(OOV)问题,同时保持语义。 举例: 输入句子: 分词后可能变成: 2. 词表映射(Vocabulary Mapping)—— 转化为数字 分词结束后,模型会查阅一个预先构建好的“字典”(Vocabulary),把每一个 Token 映射成一个唯一的整数索引...