简单来说,词嵌入(Word Embedding) 是一种将文本中的词(Word) 转换成 数字向量(Vector) 的技术。它是自然语言处理(NLP)中最基础、最重要的概念之一。 为了让你更直观地理解,我们可以从“为什么要用它”、“它是什么”以及“它能做什么”三个方面来解释。 --- 1. 为什么要用词嵌入?(解决什么问题) 计算机无法直接理解人类的语言(如“苹果”、“喜欢”),它只能处理数字。因此,我们需要把词变成数字。 传统方法的局限(独热编码 One-Hot Encoding): 在词嵌入出现之前,人们常用“独热编码”。假设字典里有10,000个词: “苹果”可能是: “香蕉”可能是: 这种方法有两个大问题: 1. 无法表示词义关系: 在计算机看来,“苹果”和“香蕉”这两个向量完全没有关系(正交的),计算机不知道它们都是水果,也不知道它们很相似。 2. 太浪费空间(稀疏性): 如果字典有10万个词,每个词的向量长度就是10万,且里面只有一个1,其余全是0。这会造成极大的计算浪费(维度灾难)。 --- 2. 词嵌入是什么?(核心概念) 词嵌入通过神经网络训练,将每个词映射到一...