亚马逊最新《知识增强预训练语言模型》,全面综述知识嵌入预训练模型以及在NLU与NLG应用

2021 年 10 月 19 日 专知

【导读】预训练语言模型是当前的研究热点之一。来自AWS AI相关研究人员发布了关于《知识增强预训练语言模型》综述论文,值的关注!


摘要


预训练语言模型(Pretrained Language Models, PLM)通过在大规模文本语料库上学习信息语境化表示,建立了一种新的范式。这种新的范式已经彻底改变了整个自然语言处理领域,并为各种NLP任务设置了新的最先进的性能。然而,尽管PLM可以从训练语料库中存储一定的知识/事实,但它们的知识意识还远远不能令人满意。为了解决这个问题,将知识集成到PLM中已经成为一个非常活跃的研究领域,并且已经开发了各种各样的方法。在本文中,我们对这一新兴和快速发展的领域-知识增强的预训练语言模型(KE-PLMs)提供了一个全面的文献综述。我们引入三种分类法来对现有工作进行分类。此外,我们还调研了各种NLU和NLG应用,在这些应用上,KE-PLM表现出了优于普通PLM的性能。最后,讨论了KE-PLMs面临的挑战和未来的研究方向。


引言


近年来,大规模预训练语言模型(大规模预训练语言模型,简称PLM)给自然语言处理领域带来了革命性的变化。预先训练的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]获得了巨大的成功,极大地提升了各种NLP应用的最先进性能[67]。前训练在NLP中的广泛成功也启发了自我监督前训练在其他领域的应用,如图表示学习[30][31]和推荐系统[81][98]。对大量文本数据的训练也使这些plm能够记住训练语料库中包含的某些事实和知识。最近的研究表明,这些经过训练的语言模型可以拥有相当数量的词汇知识[48][92]和事实知识[63][71][95]。然而,进一步的研究发现,PLM在知识意识方面也存在以下局限性:


  • 对于NLU来说,最近的研究发现PLM倾向于依赖于表面信号/统计线索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和错误启动的探针[35]所愚弄。此外,已有研究发现,PLM在推理任务中往往会失败[84]。 


  • 对于NLG,尽管PLM能够生成语法正确的句子,但生成的文本可能不符合逻辑或不合理。例如,在[46]中提到,给定一组概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,这两者都不符合人类的常识。


这些观察结果促使人们设计更有知识意识的预训练模型。最近,越来越多的研究致力于明确地将知识纳入PLMs[100][108][61][90][96][49][33]。他们利用百科知识、常识知识和语言知识等多种来源,采用不同的注入策略。这种知识集成机制成功地增强了现有PLM的知识意识,提高了包括但不限于实体输入[100]、问题回答[101][45]、故事生成[22]和知识图完成[102]在内的各种任务的性能。

本文旨在对这一新兴领域的知识增强预训练语言模型(KE-PLMs)进行全面综述。 现有的KE-PLMs工作已经开发了一套不同的技术,用于在不同的知识来源上进行知识集成。为了深入了解这些模型并促进未来的研究,我们构建了三种分类法来对现有的KE-PLMs进行分类。图1说明了我们提出的关于知识增强预训练语言模型(KE-PLMs)的分类法。在现有的KE-PLMs中,已经探索了不同类型的知识来源(如语言学、常识、百科全书、特定应用),以增强PLMs在不同方面的能力。第一种分类法帮助我们理解在构建KE-PLMs时考虑了哪些知识来源。在第二种分类法中,我们认识到一个知识源可以被不同程度地利用,并基于知识粒度对已有的工作进行分类: 基于文本块、基于实体、基于关系三元和基于子图。最后,我们介绍了第三种分类法,它根据方法的应用领域对它们进行分组。这种分类法展示了现有的KE-PLMs在知识集成的帮助下旨在改进的一系列应用。通过认识到哪些应用领域已经被KE-PLMs很好地解决了,我们相信这将为未来将KE-PLMs应用于未解决领域的研究机会提供支持。

知识增强预训练语言模型结构图



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“KEPLM” 就可以获取亚马逊最新《知识增强预训练语言模型》,全面综述知识嵌入预训练模型以及在NLU与NLG应用》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

近年来,预训练模型(例如ELMo、GPT、BERT和XLNet等)的快速发展大幅提升了诸多NLP任务的整体水平,同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型,它的特点包括:第一,可以使用大规模无标注纯文本语料进行训练;第二,可以用于各类下游NLP任务,不是针对某项定制的,但以后可用在下游NIP任务上,你不需要为下游任务专门设计一种神经网络,或者提供一种结构,直接在几种给定的固定框架中选择一种进行 fine-tune,就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
94+阅读 · 2021年11月4日
知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
专知会员服务
80+阅读 · 2021年10月15日
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
45+阅读 · 2021年9月27日
专知会员服务
82+阅读 · 2021年6月20日
专知会员服务
59+阅读 · 2021年5月28日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
XLM-RoBERTa: 一种多语言预训练模型
深度学习自然语言处理
8+阅读 · 2020年7月26日
AAAI 2020论文解读:关注实体以更好地理解文本
AI科技评论
17+阅读 · 2019年11月20日
NLP领域预训练模型的现状及分析
AI科技评论
5+阅读 · 2019年11月1日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
18+阅读 · 2020年10月9日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
4+阅读 · 2018年5月10日
VIP会员
相关VIP内容
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
94+阅读 · 2021年11月4日
知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
专知会员服务
80+阅读 · 2021年10月15日
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
45+阅读 · 2021年9月27日
专知会员服务
82+阅读 · 2021年6月20日
专知会员服务
59+阅读 · 2021年5月28日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
相关论文
Arxiv
20+阅读 · 2021年9月21日
Arxiv
18+阅读 · 2020年10月9日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
4+阅读 · 2018年5月10日
Top
微信扫码咨询专知VIP会员