【清华ACL2020长文】KdConv:多领域知识驱动的中文多轮对话数据集

2020 年 4 月 12 日 深度学习自然语言处理

点击上方,选择星标置顶,每天给你送干货

阅读大概需要6分钟

跟随小博主,每天进步一丢丢


整理:机器学习算法与自然语言处理公众号


ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,但因新冠肺炎疫情改为线上会议。ACL 2020共收到3429个投稿,是计算语言学领域首个投稿量超过3000的会议。4月3日,ACL 2020 正式公布录用论文。
清华大学人工智能研究院交互智能(CoAI)小组有三篇长文和一篇demo论文被ACL录用,两篇文章被TACL录用并将在ACL 2020展示。本文为其中 long papers 之一。
作者 | 周昊


编辑 | 贾伟


论文链接:https://arxiv.org/abs/2004.04100
数据和代码地址:https://github.com/thu-coai/KdConv




由于包含知识标注的多轮对话数据集的缺乏,知识驱动对话系统的研究在很大程度上受到了限制。
为了进一步推动多领域的知识驱动的多轮对话研究并且弥补中文语料的缺乏,我们提出了一个中文的多领域的知识驱动的对话数据集KdConv (Knowledge-driven Conversation),其使用知识图谱为多轮对话中使用的知识进行标注。
我们的语料库包含了来自三个领域(电影、音乐和旅游)的4.5K个对话,86K个句子,平均轮数为19.0。这些对话包含了相关话题的深度讨论,以及多个话题之间的自然过渡。
为了方便在这个数据集上的研究工作,我们提供了几个生成式和检索式的基线对话模型。实验结果显示,这些模型可以通过引入背景知识来增强模型的性能,然而利用知识进行多轮对话建模仍有很大的提升空间,有待进一步研究。
结果还显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。论文已被ACL2020 会议接收,KdConv数据集和基线模型将会公开供学术研究使用。
KdConv的一个对话样例,下划线的文本是在对话中使用的相关知识。
相比于之前的知识驱动的对话数据集,KdConv有三大特点:
1、标注信息精细。KdConv 除了提供对话相关的知识图谱信息外,还为数据集中每一句对话标注了其相关的知识三元组信息,这种句子级的知识标注可以为知识驱动的对话生成任务提供细致的监督信号,而且可以在对话历史中进行知识规划的建模。
2、知识交互全面。KdConv 提供了包含结构化的知识图谱以及非结构化的长文本作为背景知识的全面的知识来源,同时由于在构造对话的过程中,没有指定任何目标约束,使得对话中的知识交互方式包含问答、讨论、迁移等全面的交互方式。
3、领域覆盖多样。KdConv 提供了包含电影、音乐和旅游三种领域的知识驱动的对话数据,结果显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。  

1


数据收集过程
收集数据时模拟的对话场景是两名用户讨论某一个领域的话题,通过对话的形式丰富双方的知识,具体包含以下两个步骤:
1、知识图谱构建
由于知识图谱的稀疏性和庞大的数据规模难以处理,我们通过从几个领域相关的网站上抓取最受欢迎的电影和电影明星、音乐和歌手、景点作为起始实体,缩小了特定领域知识的范围。
过滤掉知识三元组较少的起始实体后,电影/音乐/旅游领域分别包含559/421/476个起始实体。给定起始实体作为种子,我们从XLORE(一个大规模的英汉双语知识图谱)中检索出它们的邻居实体。我们将起始实体和这些检索到的实体和关系合并成特定领域知识图谱。构建KdConv时使用的知识图谱的统计结果见下表。

知识图谱统计信息
2、对话数据收集
我们通过众包的方式招募标注者来生成与特定领域知识图谱相关的多轮对话。在对话过程中,没有任何预设目标或约束,两个对话者都可以访问知识图谱。
允许两个参与者访问知识,在我们的语料库中,双方可以动态地改变角色,作为领导者或跟随者,这对人类对话来说更自然、更真实。
除了制作对话语料之外,如果标注者根据某些语料库生成的语料,还要求标注者记录相关的知识三元组。为了保证生成的对话的自然性,我们过滤掉了低质量的对话,其中包含语法错误、知识事实的不一致等低质量的对话。

2


数据统计
 KdConv 数据集相关的知识图谱与对话的数据统计信息如下表所示。
KdConv 数据集统计信息
 
3


基线模型
由于精细的标注信息,全面的知识交互,多样的领域覆盖, KdConv数据集可用于多种对话任务的研究。
我们提供了基于检索式和生成式的基线对话模型性能,实验结果显示,这些模型可以通过引入背景知识来增强模型的性能,然而利用知识进行多轮对话建模仍有很大的提升空间,有待进一步研究。
结果还显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。
自动评价指标。生成模型和检索模型的最佳结果分别用黑体和下划线表示。"+know "指的是引入知识图谱的模型。
交流学习,进群备注: 昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多: 机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
广告商、博主勿入!


登录查看更多
11

相关内容

ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
69+阅读 · 2020年4月7日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
哈工大SCIR三篇论文被ACL 2019录用
哈工大SCIR
17+阅读 · 2019年5月15日
哈工大SCIR两篇论文被IJCAI 2019录用
哈工大SCIR
7+阅读 · 2019年5月11日
SMP2018中文人机对话技术评测
哈工大SCIR
12+阅读 · 2019年3月6日
2018 年 Top 10 影响力 AI 研究论文
AI科技评论
41+阅读 · 2019年1月6日
Arxiv
12+阅读 · 2019年2月28日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
相关资讯
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
哈工大SCIR三篇论文被ACL 2019录用
哈工大SCIR
17+阅读 · 2019年5月15日
哈工大SCIR两篇论文被IJCAI 2019录用
哈工大SCIR
7+阅读 · 2019年5月11日
SMP2018中文人机对话技术评测
哈工大SCIR
12+阅读 · 2019年3月6日
2018 年 Top 10 影响力 AI 研究论文
AI科技评论
41+阅读 · 2019年1月6日
Top
微信扫码咨询专知VIP会员