基于强化学习的释义生成

会员服务 ·

基于强化学习的释义生成

2017 年 11 月 12 日 科技创新与创业 尹伊淳

论文作者：

Zichao Li, Xin Jiang , Lifeng Shang , Hang Li

原文链接：

https://arxiv.org/pdf/1711.00279.pdf

简介

Paraphrase（释义）是指具有相同语义的不同表述，例如“how far is Earth from Sun”, “what is the distance between Sun and Earth” and “how many miles is it from Earth to Sun” 这三句表述是Paraphrases。Paraphrase Generation在NLP领域是一项基本任务，也可以帮助一些重要的应用例如：问答、对话和搜索。本文关注释义生成问题。传统的释义生成采用Seq2Seq模型，这些模型基于字符匹配的指标BLUE和ROUGE来进行优化。这些模型本质上是优化句子级别词的匹配度，没有在语义级别进行匹配，会使模型学习的知识有限。本文利用释义数据学习得到一个匹配函数来进行语义上的指导，提出一个基于强化学习的框架来处理Paraphrase Generation。具体包括两个部分：生成器（generator）和引导器（teacher）,生成器使用了基本的seq2seq和增强学习机制，其中reward是由引导器提供；引导器使用了实现训练好的匹配模型，为generator提供reward分数。

模型

生成器（generator）

给定训练数据（X，Y），使用Seq2Seq + attention模型进行最大化似然概率学习。考虑到Paraphrases中原序列和端序列存在复制的情况，所以模型采用了复制机制，同样为了去掉重复词出现，生成器也采用了coverage机制[Tu et al., 2016]。使用加强学习(RL)对生成器进行学习，其中将下一个词的生成作为action，对下一个词的解码概率作为policy，整个reward为各个时间段的reward之和。RL的目标在于去寻找一个policy去最大化期望reward。由于增强学习一般在最后一个时间点才能给出reward，造成训练有效性降低。基于价值函数的思路[Ng et al., 1999],每一步的reward定义为期望累计reward，整个函数值可以通过Monte-Carlo模拟的方法来近似逼近，其中模拟序列通过解码器随机出来。同时此文的生成器最终的reward计算函数没有使用传统的ROUGE-2，而是由引导器提供。

引导器（teacher）

引导器通过paraphrases corpus，基于margin-based ranking的方法事先训练好。模型训练好之后，可以衡量源序列和端序列的差异，为生成器提供reward分数。具体的模型架构上使用了Google提出的简单有效的decomposable-attention架构[Parikh et al., 2016]。

实验

数据集：Quora，包含400K问题对。结构：使用ROUGE-1，ROUGE-2，BLUE 和METEOR四种评价指标，发现所提出方法比基本baseline，以及加上copy和coverage机制的模型效果有显著的提高。同时也选取300句子，让人类在relevance和fluency两方面进行评价，实验发现其效果也有显著的提升。

[Tu et al., 2016 ] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li. Modeling coverage for neural

machine translation. arXiv preprint arXiv:1601.04811, 2016.

[Ng et al., 1999] Andrew Y Ng, Daishi Harada, and Stuart Russell. Policy invariance under reward transformations:

Theory and application to reward shaping. In ICML, volume 99, pp. 278–287, 1999.

[Parikh et al., 2016] Ankur P Parikh, Oscar T¨ackstr¨om, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention

model for natural language inference. arXiv preprint arXiv:1606.01933, 2016

登录查看更多

相关内容

生成器

关注 2

生成器是一次生成一个值的特殊类型函数。可以将其视为可恢复函数。调用该函数将返回一个可用于生成连续 x 值的生成【Generator】，简单的说就是在函数的执行过程中，yield语句会把你需要的值返回给调用生成器的地方，然后退出函数，下一次调用生成器函数的时候又从上次中断的地方开始执行，而生成器内的所有变量参数都会被保存下来供下一次使用。

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日