论文作者:
Zichao Li, Xin Jiang , Lifeng Shang , Hang Li
原文链接:
https://arxiv.org/pdf/1711.00279.pdf
简介
Paraphrase(释义)是指具有相同语义的不同表述,例如“how far is Earth from Sun”, “what is the distance between Sun and Earth” and “how many miles is it from Earth to Sun” 这三句表述是Paraphrases。Paraphrase Generation在NLP领域是一项基本任务,也可以帮助一些重要的应用例如:问答、对话和搜索。本文关注释义生成问题。传统的释义生成采用Seq2Seq模型,这些模型基于字符匹配的指标BLUE和ROUGE来进行优化。这些模型本质上是优化句子级别词的匹配度,没有在语义级别进行匹配,会使模型学习的知识有限。本文利用释义数据学习得到一个匹配函数来进行语义上的指导,提出一个基于强化学习的框架来处理Paraphrase Generation。具体包括两个部分:生成器(generator)和引导器(teacher),生成器使用了基本的seq2seq和增强学习机制,其中reward是由引导器提供;引导器使用了实现训练好的匹配模型,为generator提供reward分数。
模型
生成器(generator)
给定训练数据(X,Y),使用Seq2Seq + attention模型进行最大化似然概率学习。考虑到Paraphrases中原序列和端序列存在复制的情况,所以模型采用了复制机制,同样为了去掉重复词出现,生成器也采用了coverage机制[Tu et al., 2016]。 使用加强学习(RL)对生成器进行学习,其中将下一个词的生成作为action,对下一个词的解码概率作为policy,整个reward为各个时间段的reward之和。RL的目标在于去寻找一个policy去最大化期望reward。由于增强学习一般在最后一个时间点才能给出reward,造成训练有效性降低。基于价值函数的思路[Ng et al., 1999],每一步的reward定义为期望累计reward,整个函数值可以通过Monte-Carlo模拟的方法来近似逼近,其中模拟序列通过解码器随机出来。同时此文的生成器最终的reward计算函数没有使用传统的ROUGE-2,而是由引导器提供。
引导器(teacher)
引导器通过paraphrases corpus,基于margin-based ranking的方法事先训练好。模型训练好之后,可以衡量源序列和端序列的差异,为生成器提供reward分数。 具体的模型架构上使用了Google提出的简单有效的decomposable-attention架构[Parikh et al., 2016]。
实验
数据集:Quora,包含400K问题对。 结构:使用ROUGE-1,ROUGE-2,BLUE 和METEOR四种评价指标,发现所提出方法比基本baseline,以及加上copy和coverage机制的模型效果有显著的提高。同时也选取300句子,让人类在relevance和fluency两方面进行评价,实验发现其效果也有显著的提升。
[Tu et al., 2016 ] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li. Modeling coverage for neural
machine translation. arXiv preprint arXiv:1601.04811, 2016.
[Ng et al., 1999] Andrew Y Ng, Daishi Harada, and Stuart Russell. Policy invariance under reward transformations:
Theory and application to reward shaping. In ICML, volume 99, pp. 278–287, 1999.
[Parikh et al., 2016] Ankur P Parikh, Oscar T¨ackstr¨om, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention
model for natural language inference. arXiv preprint arXiv:1606.01933, 2016