摘要

预训练语言模型(Pretrained Language Models, PLM)通过在大规模文本语料库上学习信息语境化表示,建立了一种新的范式。这种新的范式已经彻底改变了整个自然语言处理领域,并为各种NLP任务设置了新的最先进的性能。然而,尽管PLM可以从训练语料库中存储一定的知识/事实,但它们的知识意识还远远不能令人满意。为了解决这个问题,将知识集成到PLM中已经成为一个非常活跃的研究领域,并且已经开发了各种各样的方法。在本文中,我们对这一新兴和快速发展的领域-知识增强的预训练语言模型(KE-PLMs)提供了一个全面的文献综述。我们引入三种分类法来对现有工作进行分类。此外,我们还调研了各种NLU和NLG应用,在这些应用上,KE-PLM表现出了优于普通PLM的性能。最后,讨论了KE-PLMs面临的挑战和未来的研究方向。

引言

近年来,大规模预训练语言模型(大规模预训练语言模型,简称PLM)给自然语言处理领域带来了革命性的变化。预先训练的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]获得了巨大的成功,极大地提升了各种NLP应用的最先进性能[67]。前训练在NLP中的广泛成功也启发了自我监督前训练在其他领域的应用,如图表示学习[30][31]和推荐系统[81][98]。对大量文本数据的训练也使这些plm能够记住训练语料库中包含的某些事实和知识。最近的研究表明,这些经过训练的语言模型可以拥有相当数量的词汇知识[48][92]和事实知识[63][71][95]。然而,进一步的研究发现,PLM在知识意识方面也存在以下局限性:

对于NLU来说,最近的研究发现PLM倾向于依赖于表面信号/统计线索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和错误启动的探针[35]所愚弄。此外,已有研究发现,PLM在推理任务中往往会失败[84]。

对于NLG,尽管PLM能够生成语法正确的句子,但生成的文本可能不符合逻辑或不合理。例如,在[46]中提到,给定一组概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,这两者都不符合人类的常识。

这些观察结果促使人们设计更有知识意识的预训练模型。最近,越来越多的研究致力于明确地将知识纳入PLMs[100][108][61][90][96][49][33]。他们利用百科知识、常识知识和语言知识等多种来源,采用不同的注入策略。这种知识集成机制成功地增强了现有PLM的知识意识,提高了包括但不限于实体输入[100]、问题回答[101][45]、故事生成[22]和知识图完成[102]在内的各种任务的性能。

本文旨在对这一新兴领域的知识增强预训练语言模型(KE-PLMs)进行全面综述。现有的KE-PLMs工作已经开发了一套不同的技术,用于在不同的知识来源上进行知识集成。为了深入了解这些模型并促进未来的研究,我们构建了三种分类法来对现有的KE-PLMs进行分类。图1说明了我们提出的关于知识增强预训练语言模型(KE-PLMs)的分类法。在现有的KE-PLMs中,已经探索了不同类型的知识来源(如语言学、常识、百科全书、特定应用),以增强PLMs在不同方面的能力。第一种分类法帮助我们理解在构建KE-PLMs时考虑了哪些知识来源。在第二种分类法中,我们认识到一个知识源可以被不同程度地利用,并基于知识粒度对已有的工作进行分类: 基于文本块、基于实体、基于关系三元和基于子图。最后,我们介绍了第三种分类法,它根据方法的应用领域对它们进行分组。这种分类法展示了现有的KE-PLMs在知识集成的帮助下旨在改进的一系列应用。通过认识到哪些应用领域已经被KE-PLMs很好地解决了,我们相信这将为未来将KE-PLMs应用于未解决领域的研究机会提供支持。

成为VIP会员查看完整内容
86

相关内容

近年来,预训练模型(例如ELMo、GPT、BERT和XLNet等)的快速发展大幅提升了诸多NLP任务的整体水平,同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型,它的特点包括:第一,可以使用大规模无标注纯文本语料进行训练;第二,可以用于各类下游NLP任务,不是针对某项定制的,但以后可用在下游NIP任务上,你不需要为下游任务专门设计一种神经网络,或者提供一种结构,直接在几种给定的固定框架中选择一种进行 fine-tune,就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
90+阅读 · 2021年11月4日
专知会员服务
79+阅读 · 2021年10月15日
专知会员服务
55+阅读 · 2021年10月12日
专知会员服务
63+阅读 · 2021年5月29日
专知会员服务
21+阅读 · 2021年4月20日
多模态视觉语言表征学习研究综述
专知会员服务
186+阅读 · 2020年12月3日
专知会员服务
112+阅读 · 2020年8月22日
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
神经机器阅读理解最新综述:方法和趋势
PaperWeekly
15+阅读 · 2019年7月25日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
【机器视觉】机器视觉全面解析
产业智能官
11+阅读 · 2018年11月12日
统计语言模型
算法与数学之美
3+阅读 · 2017年10月28日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
4+阅读 · 2019年2月18日
VIP会员
相关VIP内容
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
90+阅读 · 2021年11月4日
专知会员服务
79+阅读 · 2021年10月15日
专知会员服务
55+阅读 · 2021年10月12日
专知会员服务
63+阅读 · 2021年5月29日
专知会员服务
21+阅读 · 2021年4月20日
多模态视觉语言表征学习研究综述
专知会员服务
186+阅读 · 2020年12月3日
专知会员服务
112+阅读 · 2020年8月22日
微信扫码咨询专知VIP会员