【QA论文笔记】问答对排序新方法,层次循环编码器与主题聚类结合

2018 年 5 月 14 日 专知 专知内容组

【导读】这篇发表在自然语言处理领域顶级会议的NAACL的文章,提出了一种新的端到端神经网络架构,用于对候选回答进行排序。该文章提出的模型,文本分别按照词和块的级别进行编码,有效地捕捉了整句话的含义。在此基础之上,增加了话题聚类模块,从回答中提取语义信息,将回答进行分组,进一步提升了排序的性能。


【NAACL 2018 论文】

Learning to Rank Question-Answer Pairs using Hierarchical Recurrent Encoder with Latent Topic Clustering

简介




最近神经网络已经在许多机器学习领域取得了巨大成功,如图像分类,语音识别,机器翻译,聊天机器人,问答等领域。其中,自动问答(QA)任务一直被认为是人工智能的主要目标。


在商业领域,通常通过使用预先组织的知识库和/或使用基于信息检索(IR)的方法来处理QA任务。而在学界,研究人员不断研究QA系统核心技术:问答对排序任务。排序任务是指,从知识库或基于检索的模块中选择候选回答中的最佳答案。有许多端到端的神经网络试图来解决这一任务。这些作品侧重于匹配句子级别的文本对。因此,他们在理解更长的文本(如多回合对话和解释性文档)方面存在局限性,文本变长时,排序性能随之下降。为了解决这个问题,这篇文章的创新点在于:


• 引入分层递归对偶编码器(HRDE)模型来计算问答对之间的匹配度来确定排名。通过使用分层体系结构将文本从单词级别编码为块级别,HRDE可以防止在理解更长的文本时性能下降,同时支持其他最先进的神经网络模型。


• 提出了一个潜在主题聚类(LTC)模块来从目标数据集中提取潜在信息,并将这些额外的信息应用于端到端的训练。该模块允许每个数据样本找到最近的话题聚类,从而帮助神经网络模型分析整个数据。 LTC模块可以与任何神经网络相结合,作为额外信息的来源。这是一种利用潜在话题集群信息进行QA任务的新颖方法,特别是通过将HRDE和LTC的组合模型应用于QA对排名任务。


该论文在Ubuntu对话语料库和三星官方网站抓取的真实QA数据上对提出的模型进行评估,可以看出达到了state of art 的效果。


模型




HRDE(Hierarchical Recurrent Dual Encoder )

首先解释模型中的几个词语,解释之后,模型的结构以及为什么这样设计就很容易理解了。

• Dual :Dual是“对偶”的意思,在排序任务中,需要分别对问题和候选回答会进行编码,这就体现了“Dual”


• Recurrent:循环,代表RNN循环神经网络,在文本处理时,充分考虑了上下文的关系,在对当前词语进行编码的时候,还会加入到前几个词的编码信息,并加入一些遗忘机制(LSTM,GRU)等。


其实用循环神经网络编码问答对前人已经做过(Lowe 2015),而由于RNN的遗忘的机制,针对长文本编码时往往不能顾及全局的信息,因此,本文的作者提出了分层结构。

• Hierarchical 所谓的分层结构,就是首先将一整个回答首先按照句子或其他方式切分成几个部分,首先对各部分的词分别进行编码,然后在结合整个词的编码作为整个部分的编码,完成了所谓的分层编码的效果。这种做法避免了在处理长文本时由于“遗忘”而导致排序性能下降的问题。


模型的框图如下所示,右边蓝色框中的即展示了分层编码: 表示第i个部分的中的t个词, 表示对第i个部分中第j个词用RNN编码的结果。 表示在对词编码的基础上,对这部分进行编码的结果。



LDT( Latent Topic Clustering )




而为了进一步提高排序的性能,在HRDE的基础上,还进行了分组。这一操作只应用于回答。在HRDE输出的基础上,首先将输入与代表K个“主题”的向量做内积,并softmax,得到该回答与所有主题的“相似度”(或“权值?”),然后用“相似度”和K个主题”构造“输入的向量中的主题特征,即按照相似度对“主题“进行加权求和,和原始输入拼接在一起,作为下一步排序的输入。


LDT的结构图如下所示(蓝色虚线框):


实验结果




数据集

文章中使用了Ubuntu 数据集和从三星官网上爬的数据来验证模型。数据的特点如下所示:

句子的样例如下所示,可见回答都是较长的文本:


在三个数据集上的实验结果如下所示,可见加入了分层结构对实验结果有十分明显的提升,而后期主题聚类又在此基础上有微弱的提升。


参考链接:

https://arxiv.org/pdf/1710.03430.pdf

更多教程资料请访问:专知AI会员计划

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群

【专知AI服务计划】专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取

[点击上面图片加入会员]

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知

登录查看更多
9

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
【IJCAI2020-CMU】结构注意力的神经抽象摘要
专知会员服务
21+阅读 · 2020年4月23日
一份简短《图神经网络GNN》笔记,入门小册
专知会员服务
224+阅读 · 2020年4月11日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
22+阅读 · 2020年1月28日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
【论文笔记】基于LSTM的问答对排序
专知
12+阅读 · 2019年9月7日
论文浅尝 | 知识图谱问答中的层次类型约束主题实体识别
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年5月21日
VIP会员
Top
微信扫码咨询专知VIP会员