【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

导读

近些年来,大家对于多轮对话中保持对话的一致性和减少重复性的问题。本文介绍中科院信工所孙雅静等人AAAI2020的工作《History-adaption Knowledge Incorporation Mechanism for Multi-turn Dialogue System》,该论文提出了一种history-adaption knowledge incorporation 机制,动态的考虑对话历史和知识之间的信息相互传递,增强检索式对话中的对话一致性以及避免重复性。


动机


大部分的对话系统模型考虑将个性化知识或者背景知识融入到对话中提高对话的质量,但是却忽略了重复融合相同的知识在对话中会产生重复性问题。因此在将外部知识融合到对话中时我们不仅应该考虑当前对话和外部知识的语义相关性,同时在整个对话的层次上尽量避免外部知识的重复性使用。在提高对话质量的同时避免对话重复。

核心思想


我们设计了基于历史自适应的知识融合机制,该机制使用每一轮对话历史和知识进行感知,得到knowledge-grounded历史表示,同时设计了特殊的门机制来控制流向下一轮对话的知识的信息,隐式的控制知识的使用。Knowledge-grounded 历史表示融合了知识的信息,同时我们使用层次的历史编码,增强对话的理解;history-aware 的知识表示参考了历史信息,避免了知识的重复性使用。

模型结构


任务定义:给定数据集D=(P,C,A),其中外部知识表示为P={p1,p2, ...,plp},其中 pi ={pi,1,pi,2, ...,pi,k} .历史信息C={c1,c2, ...,clc},其中ci={ci,1,ci,2, ...,ci,k}. 其中clc表示当前对话. 候选答案A={a1,a2, ...,alal p ,lc,la,k, 分别表示知识的条数,对话轮数,候选答案个数以及每个句子的最大长度。模型的目标是从候选答案中选择合适的回复。


模型的总体结构如下图所示:



模型整体分为encoder layer,history-adaption layer以及output layer。


Encoder layer层主要是使用Bi-GRU对历史信息,知识信息以及候选答案进行编码,然后使用attention机制得到每个句子的上下文表示。得到的历史信息,知识信息,候选答案的上下文表示分别是hchpha 


在History-adaption 层,追踪外部知识在对话中的状态对于保持对话的一致性和重复性是重要的。对于外部知识的控制和更新和对话历史是紧密相关的。基于此,我们设计了一个门机制来控制外部信息在对话中的流动。我们循环的更新外部知识同时将其融入到历史中增强对话历史信息,最后我们采用层次循环机制捕捉基于外部知识感知的对话历史信息。


假定外部知识的初始状态表示为, 我们根据历史信息动态更新的路径是:

具体的更新过程如下:

同时,我们得到基于knowledge感知的对话历史表示:

然后将更新之后的对话历史和原始对话历史表示进行拼接,最后经过GRU得到句子级别的上下文信息最后使用attention机制得到最终的对话历史表示。


最后在output-layer主要是计算得到的对话历史表示与候选答案之间的相似度,具体如下:


实验


数据集:主要使用persona-chat以及CMU_DoG数据集。其中CMU_DoG数据集由于没有候选答案集,我们从相同的数据集中采样了19个作为负例。这种采样方法很容易和正确答案去区分开,未来的工作中我们会考虑使用数据增强以及其他评价指标的方式生成负例。


实验参数设置:

(1)我们设置persona-chat的历史长度为6,7,8. CMUDoG的历史长度设置为7.

(2) 使用Adam优化器,batch size为128. 初始的学习率设置为0.001,然后使用1e-5。Dropout=0.5。使用glove embedding。Embedding size,hidden size均为300。


实验结果:

通过对比实验我们可以看出我们的模型相比两个baseline都有明显的提升,说明我们的模型可以更好地融合外部知识捕捉对话的深度语义信息,从候选答案中找到正确的答案。其中在CMU_DoG上的提升比较大的原因可能包括两个方面。


CMU_DoG的对话中包含更多的外部知识的信息,对于我们的模型来说比较容易选择正确的答案。其次我们使用层次循环的模型可以更好的捕捉长距离的对话历史信息相比于baseline来说。在之后的工作中,我们会采用生成式的方法来更加有效的验证我们的模型。


Ablation experiment以及length analysis如下:

Ablation的实验中我们可以看出在persona-chat的数据集上没有知识融合机制,模型的效果会有很大的降低,没有知识更新机制同样会有降低,证明了知识融合的必要性以及知识更新的有效性。

从长度分析实验中可以看出我们的模型可以捕捉较长的对话历史信息。


-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,使用专知,查看5000+AI主题知识资料
展开全文
Top
微信扫码咨询专知VIP会员