基于强化学习的释义生成

2017 年 11 月 12 日 科技创新与创业 尹伊淳

论文作者:

Zichao Li, Xin Jiang , Lifeng Shang , Hang Li

原文链接:

https://arxiv.org/pdf/1711.00279.pdf

简介

Paraphrase(释义)是指具有相同语义的不同表述,例如“how far is Earth from Sun”, “what is the distance between Sun and Earth” and “how many miles is it from Earth to Sun” 这三句表述是Paraphrases。Paraphrase Generation在NLP领域是一项基本任务,也可以帮助一些重要的应用例如:问答、对话和搜索。本文关注释义生成问题。传统的释义生成采用Seq2Seq模型,这些模型基于字符匹配的指标BLUE和ROUGE来进行优化。这些模型本质上是优化句子级别词的匹配度,没有在语义级别进行匹配,会使模型学习的知识有限。本文利用释义数据学习得到一个匹配函数来进行语义上的指导,提出一个基于强化学习的框架来处理Paraphrase Generation。具体包括两个部分:生成器(generator)和引导器(teacher),生成器使用了基本的seq2seq和增强学习机制,其中reward是由引导器提供;引导器使用了实现训练好的匹配模型,为generator提供reward分数。


模型

生成器(generator)

给定训练数据(X,Y),使用Seq2Seq + attention模型进行最大化似然概率学习。考虑到Paraphrases中原序列和端序列存在复制的情况,所以模型采用了复制机制,同样为了去掉重复词出现,生成器也采用了coverage机制[Tu et al., 2016]。 使用加强学习(RL)对生成器进行学习,其中将下一个词的生成作为action,对下一个词的解码概率作为policy,整个reward为各个时间段的reward之和。RL的目标在于去寻找一个policy去最大化期望reward。由于增强学习一般在最后一个时间点才能给出reward,造成训练有效性降低。基于价值函数的思路[Ng et al., 1999],每一步的reward定义为期望累计reward,整个函数值可以通过Monte-Carlo模拟的方法来近似逼近,其中模拟序列通过解码器随机出来。同时此文的生成器最终的reward计算函数没有使用传统的ROUGE-2,而是由引导器提供。

引导器(teacher)

引导器通过paraphrases corpus,基于margin-based ranking的方法事先训练好。模型训练好之后,可以衡量源序列和端序列的差异,为生成器提供reward分数。 具体的模型架构上使用了Google提出的简单有效的decomposable-attention架构[Parikh et al., 2016]。


实验

数据集:Quora,包含400K问题对。 结构:使用ROUGE-1,ROUGE-2,BLUE 和METEOR四种评价指标,发现所提出方法比基本baseline,以及加上copy和coverage机制的模型效果有显著的提高。同时也选取300句子,让人类在relevance和fluency两方面进行评价,实验发现其效果也有显著的提升。


[Tu et al., 2016 ] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li. Modeling coverage for neural

machine translation. arXiv preprint arXiv:1601.04811, 2016.

[Ng et al., 1999] Andrew Y Ng, Daishi Harada, and Stuart Russell. Policy invariance under reward transformations:

Theory and application to reward shaping. In ICML, volume 99, pp. 278–287, 1999.

[Parikh et al., 2016] Ankur P Parikh, Oscar T¨ackstr¨om, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention

model for natural language inference. arXiv preprint arXiv:1606.01933, 2016



登录查看更多
1

相关内容

生成器是一次生成一个值的特殊类型函数。可以将其视为可恢复函数。调用该函数将返回一个可用于生成连续 x 值的生成【Generator】,简单的说就是在函数的执行过程中,yield语句会把你需要的值返回给调用生成器的地方,然后退出函数,下一次调用生成器函数的时候又从上次中断的地方开始执行,而生成器内的所有变量参数都会被保存下来供下一次使用。
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【浙江大学】对抗样本生成技术综述
专知会员服务
91+阅读 · 2020年1月6日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
一种基于Sequence-to-Sequence的高质量对话生成方法
科技创新与创业
9+阅读 · 2017年11月13日
【干货】强化学习在生成对抗网络文本生成中扮演的角色(下)
干货 | 利用深度强化学习进行对话生成
黑龙江大学自然语言处理实验室
4+阅读 · 2017年8月30日
利用深度强化学习进行对话生成
PaperWeekly
9+阅读 · 2017年8月23日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年7月11日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
4+阅读 · 2018年5月21日
VIP会员
相关资讯
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
一种基于Sequence-to-Sequence的高质量对话生成方法
科技创新与创业
9+阅读 · 2017年11月13日
【干货】强化学习在生成对抗网络文本生成中扮演的角色(下)
干货 | 利用深度强化学习进行对话生成
黑龙江大学自然语言处理实验室
4+阅读 · 2017年8月30日
利用深度强化学习进行对话生成
PaperWeekly
9+阅读 · 2017年8月23日
Top
微信扫码咨询专知VIP会员