如何理解词嵌入几何结构？【Edinburgh博士论文】对词和关系表示的理论理解，97页pdf

2022 年 2 月 6 日 专知

用向量或嵌入表示单词，可以进行计算推理，是自动完成自然语言任务的基础。例如，如果相似单词的单词嵌入包含相似的值，那么单词的相似度可以很容易地进行评估，而从它们的拼写来判断通常是不可能的(例如cat /猫科动物)，预先确定和存储所有单词之间的相似度是非常耗时的，记忆密集且主观的。我们专注于从文本语料库和知识图谱中学习单词嵌入。一些著名的算法通过学习预测每个单词周围出现的单词，在无监督的基础上从文本中学习单词嵌入，例如word2vec和GloVe。这种词嵌入的参数可以反映词共现统计数据，但它们如何捕捉语义还不清楚。知识图谱表示模型学习实体(词、人、地点等)的表示以及它们之间的关系，通常是通过训练模型以监督的方式预测已知事实。尽管预测的准确性在稳步提高，但人们对其潜在结构却知之甚少。

对于单词嵌入和知识图谱表示的几何结构如何编码潜在语义结构的理解有限，使得提高其性能、可靠性或可解释性的原则手段不明确。为了解决这个问题:

1. 通过word2vec和GloVe等算法学习的单词嵌入之间的特定几何关系对应于单词之间的语义关系，从理论上证明了经验观察的正确性;和

2. 我们将语义和几何之间的这种对应关系扩展到知识图谱的实体和关系，为知识图谱表示的潜在结构提供了一个模型，该模型与单词嵌入的模型相关联。

https://www.zhuanzhi.ai/paper/fd034ec1e498679853cd1bdcfc5ab93d

人类在很小的时候就能使用他们熟悉的词汇来完成很多任务，例如，我们通常能立即知道两个词是否指的是相似的概念，或者它们的意思是否有其他方面的关联，比如它们是相反的，或者其中一个是另一个的一部分(如车轮/汽车)。我们可以完成更加复杂的基于单词的任务，比如形成连贯的句子来描述真实或想象的场景，或者从一种语言翻译到另一种语言。尽管我们有能力完成这些任务，但它们通常都不是很容易自动化的。这在很大程度上是因为我们熟悉的单词表示，特别是它们在特定语言中的拼写，不太适合这样的任务。例如，即使是相对简单的判断单词是否有相似的意思的任务，也不能仅仅通过拼写来实现，例如van/truck或eagle/falcon。克服这一问题的主要方法是(re-)用实值向量表示单词，称为嵌入，通常被认为是语义空间中的坐标。通过对单词赋值，我们发现语义属性可以通过规则来识别，例如通过词性标注或命名实体识别的分类模型;词与词之间的语义关系可以编码为其嵌入之间的数字关系，可以解释为语义空间中的几何关系。这些单词嵌入也可以整合到更复杂的模型中，例如用于自动文本生成或机器翻译。

接下来的问题是，给每个单词分配哪些值和多少值(嵌入的维度)，以便提供所需的语义属性，即如何创建单词嵌入。对于许多语言来说，大量的词汇表明这个过程本身是自动化的，这也避免了大量的主观的人类判断。许多算法已经被提出从不同的数据来源生成单词嵌入，最常见的是大型文本语料库、文档集合和“知识图谱”。文本很容易从维基百科等网络资源中获得，文档集合通常从新闻来源中获得，知识图谱(或知识库)是代表日常知识的事实列表，以主题实体、关系、对象实体的形式，如苏格兰首府爱丁堡。单词嵌入通常从文本语料库中学习，作为分类模型的参数，以预测每个单词周围观察到的上下文单词(e.g. Mikolov et al., 2013a,b; Pennington et al., 2014)。实体的表示，以及词语/实体的语义属性和关系如何在其嵌入的几何图形中被捕获;简而言之，这些嵌入是如何“工作”的。

成功的表示算法的存在允许如何生成有用的表示的广泛问题，通过分析这些算法学习什么，并解释为什么它对语义任务有用，可以更具体地解决这个问题。在知识图谱的情况下，如何确定KGR模型学习了什么，或者如何对它们捕获的数据的潜在结构进行数学建模，目前还不清楚。然而，已知某些词嵌入模型可以捕获数据中的特定统计关系，这就留下了这些统计数据如何与语义相关的问题。在此基础上，我们研究了相似、关联、意译和类比等语义关系在词汇嵌入几何模式中的表现。然后，将语义和几何之间的对应关系扩展到知识图谱中，前提是相似的潜在语义结构可能支持词汇嵌入和知识图谱，因为在语义和关系上都可能出现相同的词汇/实体。除了建立对词/实体和关系表征的更牢固的理论理解的自然科学兴趣，包括有趣的特性，如“类比现象”，类比词嵌入通常近似于一个平行四边形，这样做的其他原因包括:

1. 它可能会培养产生嵌入的算法，使其在下游任务中表现更好，更易于解释，有助于解释，减轻数据中的不必要的偏见和/或使其预测的可信度评估;

2. 它可能有更广泛的应用，因为词嵌入算法已经被应用于许多其他领域，例如代表社交网络的成员;

3.它可能扩展到更大规模的嵌入，如短语、句子或文档，例如，生成这些嵌入的算法有时比它们的单词嵌入的平均值好不了多少(Wieting和Kiela, 2018);

4. 尽管最近关注的焦点转向了大型语言模型和上下文嵌入(e.g. Devlin et al., 2019; Brown et al., 2020)，理解“更简单”的非上下文嵌入可能为理解这些更复杂的模型提供必要的基础;

5. 许多词/实体不仅出现在文本语料库和知识图谱中，它们也可能出现在其他数据中，例如在语音中或在图像分类任务中作为类标签。对单词嵌入的更清晰的理解可能会为跨这些领域共同学习的多模态嵌入打下原则基础。