作者:哈工大SCIR博士生侯宇泰
合适的数据集或者语料是优秀的自然语言研究工作的基础,然而找寻合适的数据集通常是一件耗时耗力的工作。这时候一份优质的数据集汇总就能帮助科研人员,在研究开始的时候事半功倍。这篇文章就向你介绍一份优质的数据集汇总,帮助你的研究工作轻松选择一片合适的用武之地。
本文主要介绍由我研究中心博士生侯宇泰收集整理的一个任务型对话数据集大全。
图1. 数据集汇总项目
这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。
数据集的地址如下:
https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey
一.背景介绍:什么是任务型对话
我们收集的数据集主要针对任务型对话研究(Task-oriented Dialogue)。
任务型对话系统指在特定的情境下帮助用户完成特定任务的对话服务系统,例如帮助用户订餐、订酒店的对话系统。近年来,随着亚马逊Alex,微软小娜,苹果Siri等个人语音助理业务的兴起,基于对话的人机交互方式得到了广泛的关注,相关的研究也越来越多,俨然成为一个富有潜力的研究方向。
图2. 语音助手
目前任务型对话的研究可以大体分为两类:基于流程的任务型对话(Pipeline)以及端到端的任务型对话(End-to-End)。
基于流程的任务型对话是相对较为传统的方法。这种任务型对话的系统通过一套Pipeline流程实现。如图3所示, 任务型对话系统的流程依次包括:自然语言理解、对话状态跟踪、对话策略学习,自然语言生成模块。具体的,用户输入自然语言,对话系统按流程依次完成:分析用户意图,更新对话状态,根据对话策略做出动作,生成最终的自然语言回复。
图3. Pipeline任务型对话
然而,Pipeline流程式的对话系统存在错误级联和标注开销大的问题,为此最近有一部分研究尝试通过直接进行端到端的任务型对话学习来规避这些问题。端到端式对话系统根据用户输入句子直接给出自然语言回复。
二.为什么要做数据集汇总?
任务型对话任务并不是新课题,但是针对任务型对话的广泛研究在最近几年才兴起。任务型对话研究的方兴未艾反映在数据和语料上,就是目前现有的任务型对话数据集数量少,且其他成熟的任务已有的数据集在数据量上要少的多。 在这种情况下,尽可能多找到并有效的利用已有的数据资源就成为开展研究的关键之一。然而,搜罗并全面的寻找合适的数据集是一个费时费力的工作,所以整理统计目前已有的任务型对话领域的数据集的信息是有必要的,可以极大地为相关研究工作提供便利,让研究工作得以地快速开始。
除了数据本身的信息有价值之外,在重要数据集上的实验结果提升过程,可以很大程度上反映自然语言研究的前进脉络。所以,简单的数据集信息罗列并不能让我们满意,我们还计划提供一些常用数据上的实验结果和对应论文的信息。从而帮助研究人员了解和把握任务型对话领域研究的推进脉络。我们选择以Leaderboard的形式呈现数据集上的部分实验结果。
三.数据汇总的内容介绍
1.数据集信息
针对每个数据集,我们统计并总结了如下几个方面的内容。
表1. 数据集内容及说明
内容 | 说明 |
---|---|
Name | 数据集名称 |
Introduction | 数据集简介 |
Link (Download & Paper) | 数据下载链接和对应论文的链接 |
Multi or single turn | 对话数据是多轮还是单轮 |
Task | 对话数据是否为任务型对话 |
Task detail | 对话数据取自什么应用情景,如订餐,导航等 |
Whether Public Accessible | 是否可以免费下载 |
Size & Stats | 数据量、标注量统计 |
Included Label | 数据包括的标注类型 |
Missing Label | 数据缺失的标注类型 |
类似其他常见数据集汇总工作,我们为每个数据集提供了名称,下载链接,简介,数据量等信息。除了这些基本信息,我们还涵盖了一些任务型对话数据的特有的研究内容,例如:
Multi or single turn:对话数据是多轮还是单轮是任务型对话数据的重要属性,单轮对话数据往往用于自然语言理解任务,多轮对话数据往往用于端到端任务、对话策略学习、对话状态跟踪。
Task detail:数据适用于什么应用情景也是一个独特的关键信息,通过这个信息,研究者可以快速理解数据,开展Multi-domain 或Domain-transfer研究。
2. 实验结果Leaderboard
对于一些研究常用数据,我们提供了上面的一些State-of-the-art实验结果,并以Leaderboard的形式呈现,具体包括内容如下:
表2. Leaderboard内容及说明
内容 | 说明 |
---|---|
Model | 模型的名称 |
Score | 主要实验结果,F1分数,准确率等 |
Paper/Source | 模型对应论文的名称和链接 |
其中我们的模型名称采用出处论文中的表述,分数的评价指标以具体的任务而定。实验结果列表配合上论文链接,可以让读者快速地了解一个任务。
此项信息内容仍在完善中。
四.数据集汇总内容样例
1. 数据集介绍样例
数据集的汇总目前以表格的形式,收录了17个数据的细节信息。读者可以在github项目中Excel文件或者Readme中直接查看。数据的格式如图4所示。
图4. 数据细节样例
2. Leaderboard 样例
我们以Leaderboard 的形式展示了语义槽抽取(Slot filling),用户意图识别(Intent detection),对话状态跟踪(Dialogue state tracking)三个任务上的一些领先结果。具体形式如图5所示。
图5. Leaderboard的样例
五.关于内容补充的邀请
我们欢迎各种形式的内容完善,包括但不限于:
直接提交Pull Request
向我们发送新数据
向我们发送新的实验结果(已发表论文)
六.其他
数据集汇总地址如下:
https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey
联系信息:
ythou@ir.hit.edu.cn
本期责任编辑:丁 效
本期编辑:吴 洋
“哈工大SCIR”公众号
主编:车万翔
副主编: 张伟男,丁效
责任编辑: 张伟男,丁效,刘一佳,崔一鸣
编辑: 李家琦,吴洋,刘元兴,蔡碧波,孙卓,赖勇魁
长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。