论文浅尝 | 面向 cQA 的跨语言问题检索方法

2019 年 11 月 25 日 开放知识图谱

论文笔记整理：谭亦鸣，东南大学博士生，研究方向为知识库问答。

来源：WWW2019

链接：https://dl.acm.org/citation.cfm?doid=3308558.3313502

本文提出了一种面向cQA的跨语言问题检索方法，旨在对于给定的问题检索出其对应另一目标语言的相似问题或查询。这个任务（跨语言信息检索）的常规做法是：1.将给定问题翻译为目标语言；2.应用单语信息检索方法完成查询。这种做法的缺陷在于翻译可能存在错误，并传递到之后的检索过程。针对这一缺陷，作者基于上述方法提出改进：1.利用单语cQA数据提升翻译质量；2.在现有的神经信息检索模型的训练过程添加译回机制（back-translation），提升模型的鲁棒性。

贡献

本文贡献包括以下几点：

1. 研究了technical cQA上的跨语言问题检索方法，并发现翻译质量是严重影响检索性能的因素

2. 评估cQA问题检索中NMT领域适应性产生的影响

3. 基于现有的商用MT服务也可以达到较好的性能

方法

首先对任务进行一个描述：

给定一个输入问题q₀和规模为N的相关问题list Q=q₁, q₂,…,q_N（来自cQA），目标是对list进行重排序，从而找到list中与q₀最相关的问题q_i。跨语言问题检索的给定问题语言为德语(L₁)，list问题语言为英语(L₂)。

整体的pipeline如图1所示，给定问题q₀首先由一个NMT神经翻译模型转换为L₂语言，而后经过一个QR模型将翻译后的给定问题q₀和待对比问题q_i转换为向量表示，而后通过余弦相似度衡量两者的相关性。

NMT模型

本文使用Transformer实现给定问题的翻译，作者使用WMT’13和WMT’18数据集训练了英语-德语，德语-英语的翻译模型，包含4.5M的英德technical topic平行语料。作为对比，作者引入了谷歌翻译服务

QR模型

本文QR过程基于RCNN实现，该方法将循环单元（unit）与卷积网络相融合，将输入的问题q学习为一个修正维度的特征向量表示r，从而用于下一步的相似性计算。

目标函数方面，作者通过随机产生负例，构建了联合损失函数形式如下：

面向跨语言改进

基于合成平行语料的领域神经机器翻译（In-Domain NMT）

具体做法就是，首先利用当前数据训练两个方向的翻译系统（英-德，德-英），而后将大规模领域单语数据（英语）翻译为德语，从而得到更大规模的英德领域平行语料，用于德-英翻译系统性能强化（即译回方法，back-translation）。由于这里的单语数据是本文任务需要的目标语言（英语），即生成的平行语料中即使存在错误也不在于目标语言句子中。因此在译文生成方面，并不会严重影响输出译文的语法错误或不通顺。

作者举了一些例子在表1