语言模型的预训练已经被证明能够获取大量的世界知识,这对于NLP任务(如回答问题)是至关重要的。然而,这些知识隐式地存储在神经网络的参数中,需要更大的网络来覆盖更多的事实。

为了以更模块化和可解释性的方式捕获知识,我们在语言模型前训练中增加了一个潜在的知识检索器,它允许模型从一个大型语料库(如Wikipedia)中检索和处理文档,这些语料库在前训练、微调和推理期间使用。我们第一次展示了如何以一种无监督的方式预先训练这种知识检索器,

使用掩码语言建模作为学习信号,并通过一个考虑数百万文档的检索步骤进行反向传播。

通过对具有挑战性的开放领域问题回答(Open-QA)任务进行微调,我们证明了增强语言模型预训练(REALM)的有效性。我们比较了三种流行的开放qa基准上的最先进的显式和隐式知识存储模型,发现我们的性能显著优于所有以前的方法(4-16%的绝对准确性),同时还提供了定性的好处,如可解释性和模块化。

地址:

https://kentonl.com/pub/gltpc.2020.pdf

成为VIP会员查看完整内容
43

相关内容

近年来,预训练模型(例如ELMo、GPT、BERT和XLNet等)的快速发展大幅提升了诸多NLP任务的整体水平,同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型,它的特点包括:第一,可以使用大规模无标注纯文本语料进行训练;第二,可以用于各类下游NLP任务,不是针对某项定制的,但以后可用在下游NIP任务上,你不需要为下游任务专门设计一种神经网络,或者提供一种结构,直接在几种给定的固定框架中选择一种进行 fine-tune,就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
Arxiv
21+阅读 · 2019年3月25日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年3月22日
VIP会员
微信扫码咨询专知VIP会员