自然语言处理中的词表征（第二部分）

2018 年 12 月 31 日 AI研习社

本文为 AI 研习社编译的技术博客，原标题：

Word Representation in Natural Language Processing Part II

作者 | Nurzat Rakhmanberdieva

翻译 | 邓普斯•杰弗

校对 | 酱番梨整理 | 菠萝妹

原文链接：

https://medium.com/@rakhmanberdieva93/word-representation-in-natural-language-processing-part-ii-1aee2094e08a

注：本文的相关链接请点击文末【阅读原文】进行访问

在单词表示系列的前一部分（第一部分）中，我讨论了关于不假设单词的语义（含义）和相似性的固定单词表示形式。在这一部分中，我将描述一个分布式单词表示方法家族。其主要思想是将单词表示为特征向量。向量中的每个条目代表单词含义中的一个隐藏特征。它们可以揭示语义或句法依赖性。在下面的示例中，我们看到300维的单词表示。我们可以到，“fight”和“plane”的向量值具有相似的值，且数值差异很小。同样，“river”和“lake”也有着密切的联系。

因此，这样可以产生有用的特性，例如线性关系。广泛使用的例子King对queen与和man对woman的类比，king和queen的差别几乎与向量空间中的man和woman的差别相同，这导致下面的运算是有效的。

king-queen+man与woman相近

Word2vec

分布式词表示方法中一个比较流行的是Skip-Gram模型，它也是Word2vec库的一部分。它是由Google的Tomas Mikolov领导的研究小组开发的。其主要思想是通过相邻词来表示单词。它试图预测给定单词的所有相邻单词（上下文）。

根据论文，模型的目标函数定义如下：

以上是Skip-Gram模型的目标函数

其中w是训练词，c是上下文的尺寸。因此，它的目标是找到能够预测上下文单词的单词表示。

可以在我们的数据集上训练Word2vec，或者加载由Google发布的由部分Google新闻数据集（大约1000亿字）的预训练向量。该模型包含300维向量，包含300万个单词和短语。见链接：https://code.google.com/archive/p/word2vec/。

这些步骤使我们能够使用来自Word2vec库的预训练向量。

我们可以使用gensim加载预先训练的字向量，例如：

查询预先训练的向量表示，如下图所示方式：

GloVe

分布式单词表示的另一个代表是Glove，它是Global Vectors的缩写。虽然Word2vec捕获了某些数据一定范围的上下文，但GloVe利用了来自语料库的单词的总体共现统计信息，这是一个大量的文本集合。它包括两个重要步骤。首先，构造一个术语共现矩阵。对于每个单词，我们计算条件概率，例如，对于单词water的P(k|water)，其中k是来自词汇表的单词。如果k是stream，则P值较高，如果k是fashion，则期望值较低，因为它们通常不会同时出现。在进行所有统计计算之后，形成大矩阵。然后通过归一化计数和对数平滑来降维高维上下文矩阵，如下所示。