A major challenge of research on non-English machine reading for question answering (QA) is the lack of annotated datasets. In this paper, we present GermanQuAD, a dataset of 13,722 extractive question/answer pairs. To improve the reproducibility of the dataset creation approach and foster QA research on other languages, we summarize lessons learned and evaluate reformulation of question/answer pairs as a way to speed up the annotation process. An extractive QA model trained on GermanQuAD significantly outperforms multilingual models and also shows that machine-translated training data cannot fully substitute hand-annotated training data in the target language. Finally, we demonstrate the wide range of applications of GermanQuAD by adapting it to GermanDPR, a training dataset for dense passage retrieval (DPR), and train and evaluate the first non-English DPR model.


翻译:研究非英语机器读答题(QA)的一个主要挑战是缺乏附加说明的数据集。在本文中,我们介绍了德国QuAD,这是13 722个抽取问答的数据集。为了改进数据集创建方法的可复制性并促进其他语言的QA研究,我们总结了经验教训,评价了重新拟订问答配对的方法,以加快批注过程。在德语QuAD上受过培训的抽取式QA模型大大优于多语种模型,还表明机器翻译的培训数据不能完全取代目标语言的手语附加说明的培训数据。最后,我们通过将其适应德国DPR,即密集通道检索培训数据集,以及培训和评价第一个非英语DPR模型,展示了德国QuAD的广泛应用。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
42+阅读 · 2021年4月23日
【经典书】概率机器人,668页pdf
专知会员服务
77+阅读 · 2020年12月16日
专知会员服务
52+阅读 · 2020年9月7日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
赛尔推荐 | 第4期
哈工大SCIR
7+阅读 · 2018年3月30日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
Arxiv
0+阅读 · 2021年4月17日
Arxiv
8+阅读 · 2019年3月28日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
6+阅读 · 2018年5月22日
VIP会员
相关VIP内容
专知会员服务
42+阅读 · 2021年4月23日
【经典书】概率机器人,668页pdf
专知会员服务
77+阅读 · 2020年12月16日
专知会员服务
52+阅读 · 2020年9月7日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员