【清华ACL2020长文】KdConv：多领域知识驱动的中文多轮对话数据集

会员服务 ·

【清华ACL2020长文】KdConv：多领域知识驱动的中文多轮对话数据集

2020 年 4 月 12 日 深度学习自然语言处理

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要6分钟

跟随小博主，每天进步一丢丢

整理：机器学习算法与自然语言处理公众号

ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行，但因新冠肺炎疫情改为线上会议。ACL 2020共收到3429个投稿，是计算语言学领域首个投稿量超过3000的会议。4月3日，ACL 2020 正式公布录用论文。

清华大学人工智能研究院交互智能（CoAI）小组有三篇长文和一篇demo论文被ACL录用，两篇文章被TACL录用并将在ACL 2020展示。本文为其中 long papers 之一。

作者 | 周昊

编辑 | 贾伟

论文链接：https://arxiv.org/abs/2004.04100

数据和代码地址：https://github.com/thu-coai/KdConv

由于包含知识标注的多轮对话数据集的缺乏，知识驱动对话系统的研究在很大程度上受到了限制。

为了进一步推动多领域的知识驱动的多轮对话研究并且弥补中文语料的缺乏，我们提出了一个中文的多领域的知识驱动的对话数据集KdConv (Knowledge-driven Conversation)，其使用知识图谱为多轮对话中使用的知识进行标注。

我们的语料库包含了来自三个领域（电影、音乐和旅游）的4.5K个对话，86K个句子，平均轮数为19.0。这些对话包含了相关话题的深度讨论，以及多个话题之间的自然过渡。

为了方便在这个数据集上的研究工作，我们提供了几个生成式和检索式的基线对话模型。实验结果显示，这些模型可以通过引入背景知识来增强模型的性能，然而利用知识进行多轮对话建模仍有很大的提升空间，有待进一步研究。

结果还显示，对话模型在不同领域之间的性能差异明显，说明迁移学习和领域转换方面的工作值得进一步研究。论文已被ACL2020 会议接收，KdConv数据集和基线模型将会公开供学术研究使用。

KdConv的一个对话样例，下划线的文本是在对话中使用的相关知识。

相比于之前的知识驱动的对话数据集，KdConv有三大特点：

1、标注信息精细。KdConv 除了提供对话相关的知识图谱信息外，还为数据集中每一句对话标注了其相关的知识三元组信息，这种句子级的知识标注可以为知识驱动的对话生成任务提供细致的监督信号，而且可以在对话历史中进行知识规划的建模。

2、知识交互全面。KdConv 提供了包含结构化的知识图谱以及非结构化的长文本作为背景知识的全面的知识来源，同时由于在构造对话的过程中，没有指定任何目标约束，使得对话中的知识交互方式包含问答、讨论、迁移等全面的交互方式。

3、领域覆盖多样。KdConv 提供了包含电影、音乐和旅游三种领域的知识驱动的对话数据，结果显示，对话模型在不同领域之间的性能差异明显，说明迁移学习和领域转换方面的工作值得进一步研究。

数据收集过程

收集数据时模拟的对话场景是两名用户讨论某一个领域的话题，通过对话的形式丰富双方的知识，具体包含以下两个步骤：

1、知识图谱构建

由于知识图谱的稀疏性和庞大的数据规模难以处理，我们通过从几个领域相关的网站上抓取最受欢迎的电影和电影明星、音乐和歌手、景点作为起始实体，缩小了特定领域知识的范围。

过滤掉知识三元组较少的起始实体后，电影/音乐/旅游领域分别包含559/421/476个起始实体。给定起始实体作为种子，我们从XLORE（一个大规模的英汉双语知识图谱）中检索出它们的邻居实体。我们将起始实体和这些检索到的实体和关系合并成特定领域知识图谱。构建KdConv时使用的知识图谱的统计结果见下表。