EMNLP 2022 | RAPO: 基于自适应排序学习的双语词典归纳

会员服务 ·

EMNLP 2022 | RAPO: 基于自适应排序学习的双语词典归纳

2022 年 11 月 18 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 李朝卓

单位 | 微软

研究方向 | 图挖掘、自然语言处理

论文标题：

RAPO: An Adaptive Ranking Paradigm for Bilingual Lexicon Induction

收录会议：

EMNLP 2022

论文链接：

https://arxiv.org/abs/2210.09926

代码链接：

https://github.com/Jlfj345wf/RAPO

背景

双语词典归纳（BLI，Bilingual Lexicon Induction）指在缺少平行语料时，基于两种语言的单语语料进行单词翻译并生成双语词典。给定两组单语语料下训练得到的单语词向量（Word Embedding）以及数量很少的种子词典（seed dictionary），BLI 的核心是学习一个理想的映射函数，将这两组独立的单语词向量空间对齐到同一空间中，以便根据单词间词向量的相似性进行单词翻译。

基于不同语言间词向量空间的同构性假设 [1]，以前的方法 [2] 往往使用线性变换作为映射函数来保持空间的同构关系，并在此基础上通过增加正交限制 [3]、正则化词向量 [4]、迭代扩充词典 [5] 等方式来提高单词翻译的准确率。

动机

▲ 图1：部分单词（英语与西班牙语）在词向量空间的映射关系

现有的方法在学习映射函数时，通常将学习目标设定为：最小化互为翻译的单词对的词向量之间的距离（例如图1中crow与cuervo）。例如，一类常见的方式是将映射函数看作投影矩阵，并且将训练目标定义为：

（其中与为种子词典中两种语言的单词所对应的词向量矩阵）。

但实际上，我们认为 BLI 本质上是一个排序的问题，而不是上述训练目标定义的回归问题。因为 BLI 的目标是：对于每一个源语言中的词，寻找目标语言中置信度最高的 k 个候选词。也就是说，映射函数实际上应当具备辨别正确翻译与错误翻译之间的相对顺序的能力。以前的工作使用的目标函数只关注正例（互为翻译的单词对）之间的距离，没有明确地提供重要的排序信息，导致不能有效的提高模型的判别能力。

另外，现有工作一般通过一个所有单词共享的映射函数来对齐双语空间，因此，同一语言中的不同单词倾向于沿着相同方向变换。然而，从图 1 中我们可以发现，即使是英语和西班牙语这两种语系相近、词向量空间结构相似的语言，由于不同训练语料库中词频分布的偏差以及低频单词词向量的不充分训练，不同词的最优映射方向略有偏移 [6] [7] 。因此，我们认为，如果能够自适应的为不同单词学习个性化的映射函数，那么单词翻译的准确度有可能进一步提高。

方法

▲ 图2：RAPO进行双语词典归纳的主要步骤

如图 2 所示，RAPO 由三个主要部分组成：给定原始词向量空间（Original embedding space）：

1. 首先，个性化适配器（Personalized adapter）基于单语词向量和种子词典，利用单词上下文语义信息（Contextual semantic information）为每个词生成个性化偏移，使得原本的词向量被校准到更合适的位置；

2. 接着，Householder 投影（Householder projection）将两个校准后的词向量空间正交地映射到一个共享的隐空间，并在模型优化中保持映射的正交性；

3. 最后，我们为模型制定了基于排序的学习目标（Ranking-oriented objective）以及有效的负采样策略，使得 RAPO 可以具备更强的正负例的区分能力，进而提升 BLI 任务的表现。

3.1 个性化适配器

由于不同语料库词频分布的偏差和词向量的不平衡训练，我们希望为每个单词提供自适应的个性化映射函数。目前相关工作一般基于人为假设定义一系列的后处理规则（post-processing）[6]，根据每个单词在种子词典中的最近邻，对其映射方向进行微调。但这种基于人工假设的后处理方法可能并不可靠，并且不能保证适用于针对不同语言的翻译任务。

因此，我们设计了一种新颖的可学习的个性化适配器。它可以为每个单词自适应的学习到与任务相关的个性化偏移，并且能够通过梯度下降进行训练，从而将词向量调整到与下游任务更契合的位置。

不同的语言拥有自己独特的个性化词向量适配器，以源语言为例。给定源语言中的一个单词的词向量，我们首先通过对其邻居单词的词向量进行均值聚合，得到其包含上下文语义信息的向量。相比于单个单词，这样的相似词的集合可以提供更丰富、更准确的信息，帮助学习单词的个性化偏移。上下文语义向量的计算公式如下：

接着，考虑到语义相似的词在不同语言的词向量空间中具有更强的同构结构，我们认为具有相似上下文语义的单词也往往具有相似的个性化偏移量。因此，我们以作为个性化适配器的输入，让个性化适配器模块根据BLI任务的目标，学习其个性化的偏移。

具体来说，我们实现了一个单层的前馈神经网络网络（FFN，Feed-Forward Network）作为个性化适配器的结构。它将根据的上下文语义向量计算得到个性化的偏移，然后再将计算得到的偏移与原词向量进行组合，得到校准后的词向量：

3.2 Householder 投影

得到校准的词向量后，我们还需要设计理想的映射函数，将它们映射到共享的隐空间中。以前的工作已经证明了正交变换 [2] 作为一种“保距映射“，可以更好的保证词向量空间的结构信息不被破坏，从而更好的将少量的种子词典中的对齐知识迁移到其他单词上。

以前的工作一般通过在学习目标中增加额外的限制，来强制让映射函数向正交方向优化，最终得到一个近似正交的映射矩阵（例如，）。但这种优化目标函数在梯度下降优化中，并不能保证严格的正交性。因此，我们引入 Householder 矩阵，并基于 Householder 矩阵构造出一种可以在优化中严格保持映射正交性的 Householder 投影。

Householder 矩阵表示了一种关于过原点的超平面的反射变换。具体来说，给定一个向量，我们可以得到以为参数的大小为的 Householder 矩阵。得到该矩阵后，给定任意向量，可以关于一个过原点且与垂直的平面将该向量反射到，计算公式如下：

Householder 矩阵是正交矩阵。基于这样的 Householder 矩阵，我们设计了一种映射函数 Householder 投影来保证映射过程是严格正交的。具体来说，给定一个向量序列，Householder 投影可以定义为以这些向量为参数的连续的 Householder 矩阵变换（反射变换）。我们在原文中证明了，包含了n个向量的可以完全的表示大小为的正交矩阵空间中的任意一个正交矩阵，从而保证了拥有充足的表示能力。

具体到我们的任务中，两种语言各自有一个参数不共享的 Householder 投影模块。以源语言为例，我们使用参数为的 Householder 投影作为源语言的映射函数，其中 n 的大小取值为 d（词向量的维度），来保证其能够充足的表示任意的正交矩阵。给定经过个性化适配器调整后的词向量，我们可以得到映射后的词向量。

注意到，无论梯度下降中 Householder 投影的参数（即反射向量）被优化成任何数值，整个 Householder 投影的过程依然是严格正交的。并且我们通过数学公式的简化和推导，保证了整个计算过程仍然具有的复杂度，与简单的线性变换相同。

3.3 基于排序的学习目标

以前的工作使用的目标函数只关注正例（种子词典提供的单词对）之间的距离，没有明确地提供重要的排序信号，导致模型对候选词的排序能力没有被充分学习。实际上，BLI 更像是一个排序任务，因为我们希望为每个单词选择置信度最高的几个词作为翻译结果的候选集。因此，不同于之前基于回归学习目标的工作，我们提出了一种基于排序的损失函数来优化模型参数。

具体来说，我们使用贝叶斯个性化排序损失（Bayesian Personalized Ranking Loss，BPR Loss）作为损失函数。给定一对正例和若干负例（错误翻译），BPR Loss 要求正例之间相似度高于负例，从而提升模型对相对顺序的判断能力。

其中，关于负例的选择，我们采用了随机负采样和动态困难负例采样的混合方式，来同时保证训练的稳定性和排序的效果。

我们还额外添加了均方误差损失（Mean Squared Error Loss，MSE loss），要求模型在具有判断相对顺序的能力的同时，最小化正例之间的距离。

最终训练目标为两种损失函数的组合，并额外添加了 L2 正则项：

实验与分析

我们在 MUSE 数据集中的 20 个翻译任务上对模型进行了评估。如表 1 和表 2 所示，无论是监督学习（仅利用给定种子词典训练模型）还是半监督学习（迭代进行训练模型和利用模型扩充词典的步骤来提高模型效果）的场景下，RAPO 都在大多数的翻译任务上都达到了最好的结果，体现出了 RAPO 的高效性与泛化性。

此外，如表 2 所示，RAPO 在一些低资源的语言对上取得了更显著的提升，这表明我们提出的个性化适配器能够通过校准原始词向量来减小语言之间的结构差距，更好的完成 BLI 的任务。总体来说，RAPO 效果的提升可以归功于我们所提出的基于排序学习的目标函数，个性化的偏移和严格正交的变换。

▲ 表1：在5个资源丰富的语言对上的Top1翻译准确度评估

▲ 表2：在5个低资源的语言对上的Top1翻译准确度评估

我们针对所提出个性化适配器、Householder 投影、基于排序的学习目标，在几个翻译任务上进行了消融实验，来验证不同组件对整个模型的影响。实验结果分别如表 3、表 4、表 5 所示。

1. 对于个性化适配器，我们比较了去掉该模块，或是替换适配器中的激活函数时，模型在不同语言对上的翻译效果。从表 3 的结果中，我们可以发现去掉个性化适配器会导致模型在各个任务上效果变差，这说明了适配器的有效性。

不同的语言最合适的激活函数是不同的，这可能是因为不同语言间同构程度不同，例如：英语和意大利语（en-it）为同系语言，词向量空间同构性可能更强，适合线性激活函数来减小对词向量空间结构的改变；而英语和土耳其语（en-tr）同构性较差，则需要使用表达能力更强的非线性激活函数。

▲ 表3：关于个性化适配器的消融实验

2. 对于所提出的 Householder 投影，我们比较了将 household 投影替换为简单的线性变换以及加上正交惩罚项的正交变换。从表 4 的实验结果可以看出，正交的确对模型效果有帮助，而严格正交的 householder 投影也因此取得了最好的效果。

▲ 表4：关于Householder投影的消融实验

3. 对于提出的基于排序的学习目标，我们同样比较了去掉其中的 BPR 部分或是 MSE 部分对模型效果的影响。从表 5 的实验结果，我们可以看出两种损失函数都对模型的性能有帮助，并且在去掉排序相关的 BPR loss 后，模型效果下降的更多。这证明了我们所提出的排序目标对 BLI 任务来说更为重要。

▲ 表5：关于损失函数的消融实验

结语

在本文中，我们提出了一个新的基于自适应排序学习的双语词典归纳模型，RAPO。与以往的工作不同，RAPO 将 BLI 看作排序任务，并使用一个基于排序的学习目标对模型进行优化。除此之外，通过深入挖掘 BLI 任务的独特特征，我们进一步设计了两个新的模块：在梯度下降优化中严格正交的映射函数 Householder 投影，和为每个单词提供个性化偏移的个性化适配器。我们在 MUSE 数据集的 20 个翻译任务上对模型进行评估，并且进行了充足的实验分析，证明了 RAPO 的优越性。

参考文献

[1] Tomás Mikolov, Quoc V. Le, and Ilya Sutskever. 2013. Exploiting similarities among languages for machine translation. CoRR, abs/1309.4168.

[2] Chao Xing, Dong Wang, Chao Liu, and Yiye Lin. 2015. Normalized word embedding and orthogonal transform for bilingual word translation. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1006–1011, Denver, Colorado. Association for Computational Linguistics.

[3] Alexis Conneau, Guillaume Lample, Marc’Aurelio Ranzato, Ludovic Denoyer, and Hervé Jégou. 2018. Word translation without parallel data. In 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings.

[4] Mikel Artetxe, Gorka Labaka, and Eneko Agirre. 2018a. Generalizing and improving bilingual word embedding mappings with a multi-step framework of linear transformations. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pages 5012–5019.

[5] Xu Zhao, Zihao Wang, Hao Wu, and Yong Zhang. 2020. Semi-supervised bilingual lexicon induction with two-way interaction. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2973–2984, Online. Association for Computational Linguistics.

[6] Goran Glavaš and Ivan Vulic. 2020. Non-linear instance-based cross-lingual mapping for non-isomorphic embedding spaces. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7548–7555, Online. Association for Computational Linguistic.

[7] Shuo Ren, Shujie Liu, Ming Zhou, and Shuai Ma. 2020. A graph-based coarse-to-fine method for unsupervised bilingual lexicon induction. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 3476–3485, Online. Association for Computational Linguistics.

更多阅读