成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
【清华ACL2020长文】KdConv:多领域知识驱动的中文多轮对话数据集
2020 年 4 月 12 日
深度学习自然语言处理
点击上方,选择
星标
或
置顶
,每天给你送干货
!
阅读大概需要6分钟
跟随小博主,每天进步一丢丢
整理:机器学习算法与自然语言处理公众号
ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,但因新冠肺炎疫情改为线上会议。ACL 2020共收到3429个投稿,是计算语言学领域首个投稿量超过3000的会议。
4月3日,ACL 2020 正式公布录用论文。
清华大学
人工智能研究院交互智能(CoAI)小组有三篇长文和一篇demo论文被ACL录用,两篇文章被TACL录用并将在ACL 2020展示。本文为其中 long papers 之一。
作者 | 周昊
编辑 | 贾伟
论文链接:https://arxiv.org/abs/2004.04100
数据和代码地址:https://github.com/thu-coai/KdConv
由于包含知识标注的多轮对话数据集的缺乏,知识驱动对话系统的研究在很大程度上受到了限制。
为了进一步推动多领域的知识驱动的多轮对话研究并且弥补中文语料的缺乏,我们提出了一个中文的多领域的知识驱动的对话数据集KdConv (Knowledge-driven Conversation),其使用知识图谱为多轮对话中使用的知识进行标注。
我们的语料库包含了来自三个领域(电影、音乐和旅游)的4.5K个对话,86K个句子,平均轮数为19.0。这些对话包含了相关话题的深度讨论,以及多个话题之间的自然过渡。
为了方便在这个数据集上的研究工作,我们提供了几个生成式和检索式的基线对话模型。实验结果显示,这些模型可以通过引入背景知识来增强模型的性能,然而利用知识进行多轮对话建模仍有很大的提升空间,有待进一步研究。
结果还显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。论文已被ACL2020 会议接收,KdConv数据集和基线模型将会公开供学术研究使用。
KdConv的一个对话样例,下划线的文本是在对话中使用的相关知识。
相比于之前的知识驱动的对话数据集,KdConv有三大特点:
1、标注信息精细。
KdConv 除了提供对话相关的知识图谱信息外,还为数据集中每一句对话标注了其相关的知识三元组信息,这种句子级的知识标注可以为知识驱动的对话生成任务提供细致的监督信号,而且可以在对话历史中进行知识规划的建模。
2、知识交互全面。
KdConv 提供了包含结构化的知识图谱以及非结构化的长文本作为背景知识的全面的知识来源,同时由于在构造对话的过程中,没有指定任何目标约束,使得对话中的知识交互方式包含问答、讨论、迁移等全面的交互方式。
3、领域覆盖多样。
KdConv 提供了包含电影、音乐和旅游三种领域的知识驱动的对话数据,结果显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。
1
数据收集过程
收集数据时模拟的对话场景是两名用户讨论某一个领域的话题,通过对话的形式丰富双方的知识,具体包含以下两个步骤:
1、知识图谱构建
由于知识图谱的稀疏性和庞大的数据规模难以处理,我们通过从几个领域相关的网站上抓取最受欢迎的电影和电影明星、音乐和歌手、景点作为起始实体,缩小了特定领域知识的范围。
过滤掉知识三元组较少的起始实体后,电影/音乐/旅游领域分别包含559/421/476个起始实体。给定起始实体作为种子,我们从XLORE(一个大规模的英汉双语知识图谱)中检索出它们的邻居实体。我们将起始实体和这些检索到的实体和关系合并成特定领域知识图谱。构建KdConv时使用的知识图谱的统计结果见下表。
知识图谱统计信息
2、对话数据收集
我们通过众包的方式招募标注者来生成与特定领域知识图谱相关的多轮对话。在对话过程中,没有任何预设目标或约束,两个对话者都可以访问知识图谱。
允许两个参与者访问知识,在我们的语料库中,双方可以动态地改变角色,作为领导者或跟随者,这对人类对话来说更自然、更真实。
除了制作对话语料之外,如果标注者根据某些语料库生成的语料,还要求标注者记录相关的知识三元组。为了保证生成的对话的自然性,我们过滤掉了低质量的对话,其中包含语法错误、知识事实的不一致等低质量的对话。
2
数据统计
KdConv 数据集相关的知识图谱与对话的数据统计信息如下表所示。
KdConv 数据集统计信息
3
基线模型
由于精细的标注信息,全面的知识交互,多样的领域覆盖, KdConv数据集可用于多种对话任务的研究。
我们提供了基于检索式和生成式的基线对话模型性能,实验结果显示,这些模型可以通过引入背景知识来增强模型的性能,然而利用知识进行多轮对话建模仍有很大的提升空间,有待进一步研究。
结果还显示,对话模型在不同领域之间的性能差异明显,说明迁移学习和领域转换方面的工作值得进一步研究。
自动评价指标。生成模型和检索模型的最佳结果分别用黑体和下划线表示。"+know "指的是引入知识图谱的模型。
交流学习,进群备注:
昵称-学校(公司)-方向
,进入DL&NLP交流群。
方向有很多:
机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
。
广告商、博主勿入!
登录查看更多
点赞并收藏
0
暂时没有读者
11
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
知识驱动
关注
5
近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文
专知会员服务
84+阅读 · 2020年6月16日
近期必读的五篇顶会 ACL 2020【图神经网络 (GNN) 】相关论文
专知会员服务
104+阅读 · 2020年6月9日
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
近期必读的五篇顶会ACL 2020【图神经网络 (GNN) 】相关论文
专知会员服务
80+阅读 · 2020年5月5日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
69+阅读 · 2020年4月7日
自然语言处理顶会ACL2020放榜了,你的论文中了吗?因新冠将在线举办
专知会员服务
35+阅读 · 2020年4月5日
【WWW2020-北京大学】多模态多轮对话系统,Multi-Modality in Multi-Turn Dialog
专知会员服务
57+阅读 · 2020年3月13日
【香港科技大学-腾讯】论概念化在常识知识图构建中的作用,Commonsense Knowledge Graph
专知会员服务
37+阅读 · 2020年3月9日
【WWW2020-北邮】结构深度聚类网络,Structural Deep Clustering Network
专知会员服务
92+阅读 · 2020年2月14日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
六篇 EMNLP 2019 最新公布的【图神经网络(GNN)+NLP】相关论文
专知
178+阅读 · 2019年10月8日
EMNLP2019 | 南大NLP,基于细粒度知识融合的序列标注领域适应
AI科技评论
20+阅读 · 2019年9月24日
【EMNLP2019】最新5篇论文推荐,BERT,对话系统,知识图谱,注意力机制等
专知
32+阅读 · 2019年8月17日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
哈工大SCIR三篇论文被ACL 2019录用
哈工大SCIR
17+阅读 · 2019年5月15日
哈工大SCIR两篇论文被IJCAI 2019录用
哈工大SCIR
7+阅读 · 2019年5月11日
SMP2018中文人机对话技术评测
哈工大SCIR
12+阅读 · 2019年3月6日
基于知识图谱的问答系统入门—NLPCC2016KBQA数据集
PaperWeekly
70+阅读 · 2019年1月8日
2018 年 Top 10 影响力 AI 研究论文
AI科技评论
41+阅读 · 2019年1月6日
大会 | 清华对话式人工智能课题组六篇长文被ACL、IJCAI-ECAI录用
AI科技评论
10+阅读 · 2018年4月25日
Few-shot Natural Language Generation for Task-Oriented Dialog
Arxiv
30+阅读 · 2020年2月27日
Adversarial NLI: A New Benchmark for Natural Language Understanding
Arxiv
4+阅读 · 2019年10月31日
Investigating Meta-Learning Algorithms for Low-Resource Natural Language Understanding Tasks
Arxiv
5+阅读 · 2019年8月27日
BERT for Joint Intent Classification and Slot Filling
Arxiv
12+阅读 · 2019年2月28日
Multi-Task Deep Neural Networks for Natural Language Understanding
Arxiv
3+阅读 · 2019年1月31日
SDNet: Contextualized Attention-based Deep Network for Conversational Question Answering
Arxiv
7+阅读 · 2019年1月2日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Global Relation Embedding for Relation Extraction
Arxiv
10+阅读 · 2018年4月19日
An Ontology-Based Dialogue Management System for Banking and Finance Dialogue Systems
Arxiv
4+阅读 · 2018年4月13日
Multimodal Named Entity Recognition for Short Social Media Posts
Arxiv
8+阅读 · 2018年2月22日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
知识驱动
多轮对话
ACL
ACL 2020
ACL2020
领域知识
相关VIP内容
近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文
专知会员服务
84+阅读 · 2020年6月16日
近期必读的五篇顶会 ACL 2020【图神经网络 (GNN) 】相关论文
专知会员服务
104+阅读 · 2020年6月9日
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
近期必读的五篇顶会ACL 2020【图神经网络 (GNN) 】相关论文
专知会员服务
80+阅读 · 2020年5月5日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
69+阅读 · 2020年4月7日
自然语言处理顶会ACL2020放榜了,你的论文中了吗?因新冠将在线举办
专知会员服务
35+阅读 · 2020年4月5日
【WWW2020-北京大学】多模态多轮对话系统,Multi-Modality in Multi-Turn Dialog
专知会员服务
57+阅读 · 2020年3月13日
【香港科技大学-腾讯】论概念化在常识知识图构建中的作用,Commonsense Knowledge Graph
专知会员服务
37+阅读 · 2020年3月9日
【WWW2020-北邮】结构深度聚类网络,Structural Deep Clustering Network
专知会员服务
92+阅读 · 2020年2月14日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
热门VIP内容
开通专知VIP会员 享更多权益服务
军用数据链:武器装备神经,联合作战基石,31页pdf
【ETHZ博士论文】超越像素深度:通过深度学习增强超分辨率技术,198页pdf
2018∼2023年国家自然科学基金人工智能学科人才项目申请及资助综述
【NeurIPS2024】《AmoebaLLM:构建任意形状的大型语言模型以实现高效和即时部署》
相关资讯
六篇 EMNLP 2019 最新公布的【图神经网络(GNN)+NLP】相关论文
专知
178+阅读 · 2019年10月8日
EMNLP2019 | 南大NLP,基于细粒度知识融合的序列标注领域适应
AI科技评论
20+阅读 · 2019年9月24日
【EMNLP2019】最新5篇论文推荐,BERT,对话系统,知识图谱,注意力机制等
专知
32+阅读 · 2019年8月17日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
哈工大SCIR三篇论文被ACL 2019录用
哈工大SCIR
17+阅读 · 2019年5月15日
哈工大SCIR两篇论文被IJCAI 2019录用
哈工大SCIR
7+阅读 · 2019年5月11日
SMP2018中文人机对话技术评测
哈工大SCIR
12+阅读 · 2019年3月6日
基于知识图谱的问答系统入门—NLPCC2016KBQA数据集
PaperWeekly
70+阅读 · 2019年1月8日
2018 年 Top 10 影响力 AI 研究论文
AI科技评论
41+阅读 · 2019年1月6日
大会 | 清华对话式人工智能课题组六篇长文被ACL、IJCAI-ECAI录用
AI科技评论
10+阅读 · 2018年4月25日
相关论文
Few-shot Natural Language Generation for Task-Oriented Dialog
Arxiv
30+阅读 · 2020年2月27日
Adversarial NLI: A New Benchmark for Natural Language Understanding
Arxiv
4+阅读 · 2019年10月31日
Investigating Meta-Learning Algorithms for Low-Resource Natural Language Understanding Tasks
Arxiv
5+阅读 · 2019年8月27日
BERT for Joint Intent Classification and Slot Filling
Arxiv
12+阅读 · 2019年2月28日
Multi-Task Deep Neural Networks for Natural Language Understanding
Arxiv
3+阅读 · 2019年1月31日
SDNet: Contextualized Attention-based Deep Network for Conversational Question Answering
Arxiv
7+阅读 · 2019年1月2日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Global Relation Embedding for Relation Extraction
Arxiv
10+阅读 · 2018年4月19日
An Ontology-Based Dialogue Management System for Banking and Finance Dialogue Systems
Arxiv
4+阅读 · 2018年4月13日
Multimodal Named Entity Recognition for Short Social Media Posts
Arxiv
8+阅读 · 2018年2月22日
大家都在搜
汽车智能化
笛卡尔
大型语言模型
时间序列
全面综述
智能推荐
RE-NET
palantir
无人艇
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top