We present a new dataset of Wikipedia articles each paired with a knowledge graph, to facilitate the research in conditional text generation, graph generation and graph representation learning. Existing graph-text paired datasets typically contain small graphs and short text (1 or few sentences), thus limiting the capabilities of the models that can be learned on the data. Our new dataset WikiGraphs is collected by pairing each Wikipedia article from the established WikiText-103 benchmark (Merity et al., 2016) with a subgraph from the Freebase knowledge graph (Bollacker et al., 2008). This makes it easy to benchmark against other state-of-the-art text generative models that are capable of generating long paragraphs of coherent text. Both the graphs and the text data are of significantly larger scale compared to prior graph-text paired datasets. We present baseline graph neural network and transformer model results on our dataset for 3 tasks: graph -> text generation, graph -> text retrieval and text -> graph retrieval. We show that better conditioning on the graph provides gains in generation and retrieval quality but there is still large room for improvement.


翻译:我们提出了一套新的维基百科文章数据集,每篇文章配上一个知识图表,以便利在有条件的文本生成、图表生成和图表演示学习方面开展研究。现有的图形文本配对数据集通常包含小图表和短文本(1或几句),从而限制了数据中可以学习的模型能力。我们的新数据集Wiki Graphs是通过从既定的WikiText-103基准(Merity等人,2016年)和自由基础知识图(Bollacker等人,2008年)的子图(Bollacker等人,2008年)配对而收集的,从而便于参照其他最先进的能够生成长段落一致性文本的文本基因化模型。与以往的图形配对数据集相比,这些图表和文本数据的规模要大得多。我们为我们3项任务的数据集(图表 - > 文本生成、图表 - > 文本检索和文本 > 图表检索)的基线图形网络和变换模型结果提供了更好的改进空间。我们显示,在图形上更好的调整提供了生成和检索质量的收益,但是仍有很大的改进空间。

0
下载
关闭预览

相关内容

两人亲密社交应用,官网: trypair.com/
【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing
专知会员服务
65+阅读 · 2020年7月12日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
AI科技评论
18+阅读 · 2020年6月29日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
基于Wikipedia知识源的开放领域问答系统(读书报告)
科技创新与创业
9+阅读 · 2017年11月7日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
6+阅读 · 2020年2月15日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
11+阅读 · 2018年10月17日
Arxiv
4+阅读 · 2018年7月4日
VIP会员
相关VIP内容
【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing
专知会员服务
65+阅读 · 2020年7月12日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
相关论文
Arxiv
102+阅读 · 2020年3月4日
Arxiv
6+阅读 · 2020年2月15日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
11+阅读 · 2018年10月17日
Arxiv
4+阅读 · 2018年7月4日
Top
微信扫码咨询专知VIP会员