干货｜自然语言处理中的词向量

会员服务 ·

干货｜自然语言处理中的词向量 — word2vec！

2018 年 1 月 25 日 全球人工智能

-欢迎加入AI技术专家社群>>

- 日薪5K-10K招兼职AI讲师>>

自然语言是一套用来表达含义的复杂系统。在这套系统中，词是表义的基本单元。在机器学习中，如何使用向量表示词？

顾名思义，词向量是用来表示词的向量，通常也被认为是词的特征向量。近年来，词向量已逐渐成为自然语言处理的基础知识。

为何不采用one-hot向量

我们在循环神经网络中介绍过one-hot向量来表示词。假设词典中不同词的数量为 $N$

然而，使用one-hot词向量并不是一个好选择。一个主要的原因是，one-hot词向量无法表达不同词之间的相似度。例如，任何一对词的one-hot向量的余弦相似度都为0。

word2vec

2013年，Google团队发表了word2vec工具。word2vec工具主要包含两个模型：跳字模型（skip-gram）和连续词袋模型（continuous bag of words，简称CBOW），以及两种高效训练的方法：负采样（negative sampling）和层序softmax（hierarchical softmax）。值得一提的是，word2vec词向量可以较好地表达不同词之间的相似和类比关系。

word2vec自提出后被广泛应用在自然语言处理任务中。它的模型和训练方法也启发了很多后续的词向量模型。本节将重点介绍word2vec的模型和训练方法。

模型

跳字模型

在跳字模型中，我们用一个词来预测它在文本序列周围的词。例如，给定文本序列”the”, “man”, “hit”, “his”, 和”son”，跳字模型所关心的是，给定”hit”，生成它邻近词“the”, “man”, “his”, 和”son”的概率。在这个例子中，”hit”叫中心词，“the”, “man”, “his”, 和”son”叫背景词。由于”hit”只生成与它距离不超过2的背景词，该时间窗口的大小为2。

我们来描述一下跳字模型。

，我们将词典中的每个词与从0到 $| V | - 1$ 的整数一一对应：词典索引集 $V = {0, 1, \dots, | V | - 1}$ 。一个词在该词典中所对应的整数称为词的索引。给定一个长度为 $T$ 的文本序列中， $t$ 时刻的词为 $w^{(t)}$ 。当时间窗口大小为 $m$ 时，跳字模型需要最大化给定任一中心词生成背景词的概率：

上式的最大似然估计与最小化以下损失函数等价

我们可以用 $v$ 和 $u$ 分别代表中心词和背景词的向量。换言之，对于词典中一个索引为 $i$ 的词，它在作为中心词和背景词时的向量表示分别是 $v_{i}$ 和 $u_{i}$ 。而词典中所有词的这两种向量正是跳字模型所要学习的模型参数。为了将模型参数植入损失函数，我们需要使用模型参数表达损失函数中的中心词生成背景词的概率。假设中心词生成各个背景词的概率是相互独立的。给定中心词 $w_{c}$ 在词典中索引为 $c$ ，背景词 $w_{o}$ 在词典中索引为 $o$ ，损失函数中的中心词生成背景词的概率可以使用softmax函数定义为

而上式与下式等价：

通过上面计算得到梯度后，我们可以使用随机梯度下降来不断迭代模型参 $v_{c}$ 。其他模型参数 $u_{o}$ 的迭代方式同理可得。最终，对于词典中的任一索引为 $i$ 的词，我们均得到该词作为中心词和背景词的两组词向量 $v_{i}$ 和 $u_{i}$ 。

连续词袋模型

连续词袋模型与跳字模型类似。与跳字模型最大的不同是，连续词袋模型中用一个中心词在文本序列周围的词来预测该中心词。例如，给定文本序列”the”, “man”, “hit”, “his”, 和”son”，连续词袋模型所关心的是，邻近词“the”, “man”, “his”, 和”son”一起生成中心词”hit”的概率。

假设词典大小为 $| V |$ ，我们将词典中的每个词与从0到｜ $| V | - 1$ 的整数一一对应：词典索引集 $V = {0, 1, \dots, | V | - 1}$ 。一个词在该词典中所对应的整数称为词的索引。给定一个长度为 $T$ 的文本序列中，t时刻的词为 $w^{(t)}$ 。当时间窗口大小为m时，连续词袋模型需要最大化由背景词生成任一中心词的概率：

上式的最大似然估计与最小化以下损失函数等价

我们可以用v和u分别代表背景词和中心词的向量（注意符号和跳字模型中的不同）。换言之，对于词典中一个索引为 $i$ 的词，它在作为背景词和中心词时的向量表示分别是 $v_{i}$ 和 $u_{i}$ 。而词典中所有词的这两种向量正是连续词袋模型所要学习的模型参数。为了将模型参数植入损失函数，我们需要使用模型参数表达损失函数中的中心词生成背景词的概率。给定中心词 $w_{c}$ 在词典中索引为 $c$ ，背景词 $w_{o_{1}}, \dots, w_{o_{2 m}}$ 在词典中索引为 $o_{1}, \dots, o_{2 m}$ ，损失函数中的背景词生成中心词的概率可以使用softmax函数定义为

当序列长度 $T$ 较大时，我们通常随机采样一个较小的子序列来计算损失函数并使用随机梯度下降优化该损失函数。通过微分，我们可以计算出上式生成概率的对数关于任一背景词向量 $v_{o_{i}}$ $i = 1, \dots, 2 m$ )的梯度为：

通过上面计算得到梯度后，我们可以使用随机梯度下降来不断迭代各个模型参数 $v_{o_{i}}$ $i = 1, \dots, 2 m$ )。其他模型参数 $u_{c}$ 的迭代方式同理可得。最终，对于词典中的任一索引为 $i$

近似训练法

我们可以看到，无论是跳字模型还是连续词袋模型，每一步梯度计算的开销与词典 $V$ 的大小相关。显然，当词典较大时，例如几十万到上百万，这种训练方法的计算开销会较大。所以，使用上述训练方法在实践中是有难度的。

我们将使用近似的方法来计算这些梯度，从而减小计算开销。常用的近似训练法包括负采样和层序softmax。

负采样

我们以跳字模型为例讨论负采样。

使用了softmax，而softmax正是考虑了背景词可能是词典中的任一词，并体现在softmax的分母上。

我们不妨换个角度，假设中心词w $w_{c}$ 生成背景词 $w_{o}$ 由以下相互独立事件联合组成来近似

中心词 $w_{c}$ 和背景词 $w_{o}$ 同时出现在该训练数据窗口
中心词 $w_{c}$ 和第1个噪声词 $w_{1}$ 不同时出现在该训练数据窗口（噪声词 $w_{1}$ 按噪声词分布 $P (w)$ 随机生成，假设一定和 $w_{c}$ 不同时出现在该训练数据窗口）
…
中心词 $w_{c}$ 和第k个噪声词 $w_{K}$ 不同时出现在该训练数据窗口（噪声词 $w_{K}$ 按噪声词分布 $P (w)$ 随机生成，假设一定和 $w_{c}$ 不同时出现在该训练数据窗口）