什么是大模型的分词器？

Question

什么是大模型的分词器？

Accepted Answer

简单来说，大模型的分词器（Tokenizer）是人类语言和机器语言之间的“翻译官”。 大模型（LLM）本质上是一个巨大的数学函数，它只能处理数字（向量），无法直接理解我们输入的汉字或英文字母。分词器的作用就是把文本切分成模型能理解的最小单位，并转换成数字。 为了让你更透彻地理解，我们可以从以下几个维度来拆解： 1. 核心概念：什么是 Token？ 分词器切分出来的最小单位叫做 Token。 在英文中：Token 不一定是一个完整的单词。 例如单词 （不快乐），可能会被切分为 （前缀）、（词根）、（后缀）三个 Token。 在中文中：Token 不一定是一个字，也不一定是一个词。 常见词如“人工智能”可能是一个 Token。 生僻组合可能会被拆开，比如“烎”如果不在词表中，可能会被拆成更小的部件或者乱码。 2. 分词器的工作流程 想象你给 ChatGPT 发送了一句：“我爱AI”。分词器会经历以下步骤： 1. 切分（Tokenization）： 输入： 切分结果（假设）： 2. 映射（Encoding/Numericalization）： 分词器有一个巨大的字典（词表），里面记录了...