With the rise of large-scale pre-trained language models, open-domain question-answering (ODQA) has become an important research topic in NLP. Based on the popular pre-training fine-tuning approach, we posit that an additional in-domain pre-training stage using a large-scale, natural, and diverse question-answering (QA) dataset can be beneficial for ODQA. Consequently, we propose a novel QA dataset based on the Common Crawl project in this paper. Using the readily available schema.org annotation, we extract around 130 million multilingual question-answer pairs, including about 60 million English data-points. With this previously unseen number of natural QA pairs, we pre-train popular language models to show the potential of large-scale in-domain pre-training for the task of question-answering. In our experiments, we find that pre-training question-answering models on our Common Crawl Question Answering dataset (CCQA) achieves promising results in zero-shot, low resource and fine-tuned settings across multiple tasks, models and benchmarks.


翻译:随着大规模预先培训语言模式的兴起,开放式问题解答(ODQA)已成为NLP的一个重要研究课题。 根据广受欢迎的培训前微调方法,我们假设,使用大规模、自然和多样化的问答数据集,在内部再增加一个培训前阶段,对ODQA有好处。因此,我们提议根据本文中的通用“Crawl”项目建立一个新型的质量解答数据集。我们利用现成的 schema.org annotation,提取了大约1.3亿个多语种问答配对,包括大约6 000万个英语数据配对。由于以前不为人所见的天然的“QA”配对,我们预先培训通用语言模式可以显示大规模在内部进行问答任务培训前的潜力。在我们的实验中,我们发现我们共同的“Crawel”解答数据集(CCQA)的培训前解答模式在多个任务、模式和基准上取得了令人乐观的结果。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
31+阅读 · 2021年7月2日
专知会员服务
54+阅读 · 2021年2月2日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
新任务引介 | Embodied Question Answering
人工智能前沿讲习班
3+阅读 · 2018年8月8日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
VIP会员
Top
微信扫码咨询专知VIP会员