你可能不需要固定词表：一种与词表无关的组合式词向量方法

会员服务 ·

你可能不需要固定词表：一种与词表无关的组合式词向量方法

2020 年 9 月 30 日 PaperWeekly

论文标题：

Grounded Compositional Outputs for Adaptive Language Modeling

论文作者：

Nikolaos Pappas (UW), Phoebe Mulcaire (UW), Noah A. Smith (UW)

论文链接：

https://arxiv.org/abs/2009.11523

代码链接：

https://github.com/Noahs-ARK/groc (Coming soon)

过去的几乎所有深度模型在输入和输出的时候都使用一个固定的词向量矩阵，它的大小就是预定义好的词表的大小。

但是，在测试的时候遇到OOV，或者用在其他领域的时候，模型的效果就会大打折扣。如果要覆盖更多的词，无疑就是增大词表，这样的话，词向量矩阵也会随之增大。

如何尽可能覆盖更多的词，同时也不会显著增加参数量，甚至保持参数量不变，是处理此类问题的一个关键所在。

本文提出了一种与词表无关的词向量方法，每个词的词向量都是由它内部的字符、WordNet中的关系与定义组合得到的，这样对于所有词而言，参数量就固定了。

同时，对于任何词，即使没有在原来的词向量矩阵中，这种方法也可以得到词向量。这样就可以达到我们的目标。

在开始介绍之前需要说明，本文说的词表并不是词库，因为无论如何，包括我们人类也都是需要存储词的。这里的词表指一个固定的词向量矩阵，在训练完之后，对任何任务，这个矩阵在推理的时候是不变的。

本文的方法可以理解为：对不同的任务可以有不同的，而中的每个词向量都是组合得到的而不是自己去学到的，所以总的参数量就和本身无关。这一点需要尤其注意。

词向量矩阵

词向量矩阵在各类NLP模型中是一个标配，它把词表中的每个词映射为一个与之对应的向量，在训练结束之后，这个矩阵就是固定的，对于生成类任务而言，所有要生成的词也是从中选择的。

词向量矩阵分为两类：输入矩阵和输出矩阵。这两个矩阵可以相同，也可以不同，但一般来说，它们的大小都是固定的，即。

显然，词表越大，参数量就越多。如果想要减少参数量，令是一个不错的选择。再进一步，令输出矩阵是输入矩阵的一个函数可以在一定程度上区分两者，即。如下图所示。

但无论是哪种方法，正如我们上面说的，它们的大小都是恒定的，如果遇到不同领域的文本，或者一些情况下我们想要引入更多的不包含在现有词表中的词时，就会产生大量的OOV，这些词在不存在，从而影响模型效果。

那么，转变一下思路：我们现实中的词不都是通过词典去定义吗，而且一个词的意思往往能通过组成它的字推导出来（这在英语中尤其明显）。

所以，我们能不能采用一种组合式的方式，不是对每个词都去学一个它独有的词向量，而是用它的表层形式（Surface Form）、词典定义（Definition）和关系（Relation），去得到它的词向量。

这样一来，通过特定的实现，无论我们有多少词，模型的参数量都是恒定不变的；同时，如果在测试的时候遇到一个没有见过的词，也可以用这种方式去得到它的词向量，从而解决上面的问题。

GroC: 组合式词向量

下图是GroC（Grounded Compositional）词向量的示意图。方法很简单，对每个词，无论是在不在某个词表中，它的词向量都由三部分得到：表层形式（Surface Form），关系形式（Relational Form）和定义形式（Definitional Form）。然后把这三者拼接起来就是词本身的词向量了。

表层向量就用一个字级别的CNN+Highway实现，关系向量就是WordNet中它的所有同义词和近义词表层向量的平均，而定义向量就是词的定义中所有词表层向量的平均。如果一个词没有出现在WordNet中，就相应地把设为0即可。

用这种方法，训练和测试完全可以用不同的词表。比如说现在测试用的词表是，那么就可以match用GroC得到它其中每个词的词向量。

但是上面我们说了，一般模型有输入和输出向量，而GroC只能得到一个向量，为了进一步区分二者，我们依然可以把输出向量看作是输入向量的函数，即：

最后得到的就是真正的输出向量。

注意，在训练的时候这种方法肯定会比一般的词向量方法开销更大，因为要得到三个组成向量。为此，可以不用每次都更新参数，而是以一定概率进行，具体详见原文。在推理的时候，也可以缓存已有的。

实验

In-Domain Language Model

in-domain语言模型任务考虑的是固定词表，即训练和测试的词表相同。数据集有penn和wikitext2。所有任务的模型都是LSTM，但是输出词向量矩阵的方法不同，有Lookup Table，Convolutional，Tied，Bilinear，Deep Residual，Adaptive和GroC。下表是实验结果。