什么是词嵌入（Word Embedding）？

Question

Accepted Answer

简单来说，词嵌入（Word Embedding） 是一种将文本中的词（Word） 转换成 数字向量（Vector） 的技术。它是自然语言处理（NLP）中最基础、最重要的概念之一。 为了让你更直观地理解，我们可以从“为什么要用它”、“它是什么”以及“它能做什么”三个方面来解释。 --- 1. 为什么要用词嵌入？（解决什么问题） 计算机无法直接理解人类的语言（如“苹果”、“喜欢”），它只能处理数字。因此，我们需要把词变成数字。 传统方法的局限（独热编码 One-Hot Encoding）： 在词嵌入出现之前，人们常用“独热编码”。假设字典里有10,000个词： “苹果”可能是： “香蕉”可能是： 这种方法有两个大问题： 1. 无法表示词义关系： 在计算机看来，“苹果”和“香蕉”这两个向量完全没有关系（正交的），计算机不知道它们都是水果，也不知道它们很相似。 2. 太浪费空间（稀疏性）： 如果字典有10万个词，每个词的向量长度就是10万，且里面只有一个1，其余全是0。这会造成极大的计算浪费（维度灾难）。 --- 2. 词嵌入是什么？（核心概念） 词嵌入通过神经网络训练，将每个词映射到一...

播面

什么是词嵌入（Word Embedding）？

1. 为什么要用词嵌入？（解决什么问题）

2. 词嵌入是什么？（核心概念）

3. 词嵌入的神奇特性

(1) 语义相似度

(2) 词的类比运算（最经典的例子）

4. 常见的词嵌入模型

总结

你好！我是 Bomian 助手