德语QuAD和德语DPR:改进非英语问题的回答和通过通道检索 (GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval) - 专知论文

会员服务 ·

0

自动问答 · MoDELS · 训练数据 · 数据集 · Processing（编程语言） ·

2021 年 4 月 26 日

GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval

翻译：德语QuAD和德语DPR:改进非英语问题的回答和通过通道检索

Timo Möller,Julian Risch,Malte Pietsch

from arxiv, See https://deepset.ai/germanquad for downloading the datasets and models

A major challenge of research on non-English machine reading for question answering (QA) is the lack of annotated datasets. In this paper, we present GermanQuAD, a dataset of 13,722 extractive question/answer pairs. To improve the reproducibility of the dataset creation approach and foster QA research on other languages, we summarize lessons learned and evaluate reformulation of question/answer pairs as a way to speed up the annotation process. An extractive QA model trained on GermanQuAD significantly outperforms multilingual models and also shows that machine-translated training data cannot fully substitute hand-annotated training data in the target language. Finally, we demonstrate the wide range of applications of GermanQuAD by adapting it to GermanDPR, a training dataset for dense passage retrieval (DPR), and train and evaluate the first non-English DPR model.

翻译：研究非英语机器读答题(QA)的一个主要挑战是缺乏附加说明的数据集。在本文中,我们介绍了德国QuAD,这是13 722个抽取问答的数据集。为了改进数据集创建方法的可复制性并促进其他语言的QA研究,我们总结了经验教训,评价了重新拟订问答配对的方法,以加快批注过程。在德语QuAD上受过培训的抽取式QA模型大大优于多语种模型,还表明机器翻译的培训数据不能完全取代目标语言的手语附加说明的培训数据。最后,我们通过将其适应德国DPR,即密集通道检索培训数据集,以及培训和评价第一个非英语DPR模型,展示了德国QuAD的广泛应用。

0

相关内容

自动问答

自动问答（Question Answering, QA）是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎，问答系统是信息服务的一种高级形式，系统返回用户的不再是基于关键词匹配排序的文档列表，而是精准的自然语言答案。近年来，随着人工智能的飞速发展，自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

多样性文本生成任务的研究进展

专知会员服务

43+阅读 · 2021年4月23日

【经典书】概率机器人，668页pdf

【经典书】概率机器人，668页pdf

专知会员服务

81+阅读 · 2020年12月16日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

54+阅读 · 2020年9月7日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

自然语言处理中的注意力机制，Attention in Natural Language Processing

自然语言处理中的注意力机制，Attention in Natural Language Processing

专知会员服务

136+阅读 · 2020年5月30日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

【综述】文献级机器翻译研究:方法与评价（A Survey on Document-level Machine Translation: Methods and Evaluation）

【综述】文献级机器翻译研究:方法与评价（A Survey on Document-level Machine Translation: Methods and Evaluation）

专知会员服务

7+阅读 · 2019年12月19日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

【文本匹配】Question Answering论文

【文本匹配】Question Answering论文

深度学习自然语言处理

8+阅读 · 2020年4月20日

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)

深度学习自然语言处理

7+阅读 · 2020年4月8日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

Facebook PyText 在 Github 上开源了

Facebook PyText 在 Github 上开源了

AINLP

7+阅读 · 2018年12月14日

岗位推荐 | 阿里巴巴达摩院招聘自然语言处理、机器翻译算法专家

岗位推荐 | 阿里巴巴达摩院招聘自然语言处理、机器翻译算法专家

PaperWeekly

4+阅读 · 2018年10月13日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新六篇自动问答相关论文—无监督迁移学习、综述、生成式问答、QDEE、可扩展文档理解

【论文推荐】最新六篇自动问答相关论文—无监督迁移学习、综述、生成式问答、QDEE、可扩展文档理解

专知

12+阅读 · 2018年5月9日

赛尔推荐 | 第4期

赛尔推荐 | 第4期

哈工大SCIR

7+阅读 · 2018年3月30日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

19+阅读 · 2018年1月9日

Bio-SODA: Enabling Natural Language Question Answering over Knowledge Graphs without Training Data

Arxiv

0+阅读 · 2021年6月14日

Zero-shot Slot Filling with DPR and RAG

Arxiv

0+阅读 · 2021年4月17日

HopRetriever: Retrieve Hops over Wikipedia to Answer Complex Questions

HopRetriever: Retrieve Hops over Wikipedia to Answer Complex Questions

Arxiv

10+阅读 · 2020年12月31日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Improving the Transformer Translation Model with Document-Level Context

Arxiv

4+阅读 · 2018年10月8日

Improving Neural Question Generation using Answer Separation

Improving Neural Question Generation using Answer Separation

Arxiv

3+阅读 · 2018年9月7日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Joint Image Captioning and Question Answering

Arxiv

6+阅读 · 2018年5月22日

Simple and Effective Semi-Supervised Question Answering

Arxiv

5+阅读 · 2018年4月2日

VIP会员

文章信息

相关主题

Processing（编程语言）

相关VIP内容

多样性文本生成任务的研究进展

专知会员服务

43+阅读 · 2021年4月23日

【经典书】概率机器人，668页pdf

【经典书】概率机器人，668页pdf

专知会员服务

81+阅读 · 2020年12月16日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

54+阅读 · 2020年9月7日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

自然语言处理中的注意力机制，Attention in Natural Language Processing

自然语言处理中的注意力机制，Attention in Natural Language Processing

专知会员服务

136+阅读 · 2020年5月30日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

【综述】文献级机器翻译研究:方法与评价（A Survey on Document-level Machine Translation: Methods and Evaluation）

【综述】文献级机器翻译研究:方法与评价（A Survey on Document-level Machine Translation: Methods and Evaluation）

专知会员服务

7+阅读 · 2019年12月19日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《军事域人工智能风险、机遇与治理战略指导报告》2025最新76页报告

《杀伤网与精确规模：智能饱和战争时代的战略要务-印度视角》2025最新报告

俄乌冲突的地缘政治与军事教训（万字长文）

《弹药快速效能建模：推进互操作性与技术优势》2025最新26页报告

相关资讯

【文本匹配】Question Answering论文

【文本匹配】Question Answering论文

深度学习自然语言处理

8+阅读 · 2020年4月20日

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)

深度学习自然语言处理

7+阅读 · 2020年4月8日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

Facebook PyText 在 Github 上开源了

Facebook PyText 在 Github 上开源了

AINLP

7+阅读 · 2018年12月14日

岗位推荐 | 阿里巴巴达摩院招聘自然语言处理、机器翻译算法专家

岗位推荐 | 阿里巴巴达摩院招聘自然语言处理、机器翻译算法专家

PaperWeekly

4+阅读 · 2018年10月13日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新六篇自动问答相关论文—无监督迁移学习、综述、生成式问答、QDEE、可扩展文档理解

【论文推荐】最新六篇自动问答相关论文—无监督迁移学习、综述、生成式问答、QDEE、可扩展文档理解

专知

12+阅读 · 2018年5月9日

赛尔推荐 | 第4期

赛尔推荐 | 第4期

哈工大SCIR

7+阅读 · 2018年3月30日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

19+阅读 · 2018年1月9日

相关论文

Bio-SODA: Enabling Natural Language Question Answering over Knowledge Graphs without Training Data

Arxiv

0+阅读 · 2021年6月14日

Zero-shot Slot Filling with DPR and RAG

Arxiv

0+阅读 · 2021年4月17日

HopRetriever: Retrieve Hops over Wikipedia to Answer Complex Questions

HopRetriever: Retrieve Hops over Wikipedia to Answer Complex Questions

Arxiv

10+阅读 · 2020年12月31日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Improving the Transformer Translation Model with Document-Level Context

Arxiv

4+阅读 · 2018年10月8日

Improving Neural Question Generation using Answer Separation

Improving Neural Question Generation using Answer Separation

Arxiv

3+阅读 · 2018年9月7日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Joint Image Captioning and Question Answering

Arxiv

6+阅读 · 2018年5月22日

Simple and Effective Semi-Supervised Question Answering

Arxiv

5+阅读 · 2018年4月2日

微信扫码咨询专知VIP会员