中文预训练模型研究进展

2022 年 7 月 22 日 专知

近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行建模和表示,但主流预训练模型大多针对英文领域。中文领域起步相对较晚,鉴于其在自然语言处理过程中的重要性,学术界和工业界都开展了广泛的研究,提出了众多的中文预训练模型。文中对中文预训练模型的相关研究成果进行了较为全面的回顾,首先介绍预训练模型的基本概况及其发展历史,对中文预训练模型主要使用的两种经典模型Transformer和BERT进行了梳理,然后根据不同模型所属类别提出了中文预训练模型的分类方法,并总结了中文领域的不同评测基准,最后对中文预训练模型未来的发展趋势进行了展望。旨在帮助科研工作者更全面地了解中文预训练模型的发展历程,继而为新模型的提出提供思路。

１引言

自然语言处理(NaturalLanguageProcessing,NLP)是计算机利用人类定义的算法对自然语言形式的输入进行加工处理的过程,旨在让计算机可以像人类一样理解和生成语言,具备如人类一样的听、说、读、写、问、答、对话、聊天等的能力,并利用已有知识和常识进行推理分析.自然语言处理技术的发展经历了从基于规则到基于统计的过程.随着深度学习的发展,图像、文本、声音、视频等不同形式的信息载体被自然语言处理技术突破,大量的神经网络被引入自然语言理解任务中, 如循环神经网络[１](RecurrentNeuralNetworks,RNN)、卷积神经网络[２](ConvolutionalNeuralNetworks,CNN)、注意力机制[３](AttentionMechanism)等.在特定的自然语言处理任务中,神经网络可以隐性地学习到序列的语义表示与内在特征,因此,神经网络成为了解决复杂自然语言处理任务最有效的方法.随着计算力的不断增强,深度学习在自然语言处理领域中不断发展,分布式表示占据了主导地位,不仅在指定任务中可以端到端地学习语义表示,而且可以在大规模无标注的文本上进行自主学习,能更灵活地运用在各种下游任务中. 然而,早期在有监督数据上训练浅层模型往往存在过拟合和标注数据不足等问题,在训练深层模型参数时,为了防止过拟合,通常需要大量的标注数据,但有监督的标注数据成本较高,因此模型主要利用网络中现存的大量无监督数据进行训练.在此背景下,预训练技术被广泛地应用在自然语言处理领域.其中,最经典的预训练模型是 BERT [４]模型,在多个自然语言处理任务中取得了最好结果(StateoftheArt,SOＧ TA).此后出现了一系列基于 BERT 的预训练模型,掀起了深度学习与预训练技术的发展浪潮。

随着国内外研究者在预训练模型方面的深入研究,目前已有很多关于预训练模型的综述,但缺少专门针对中文领域的相关综述.当前,中文预训练模型蓬勃发展并取得一定的成绩,因此,对现有研究成果进行全面的分析和总结非常必要.本文期望能为中文预训练相关领域的学者提供参考,帮助科研工作者了解目前的研究现状和未来的发展趋势.本文第２节概述预训练模型的基本情况;第３节主要介绍两种基本模型,即 Transformer和 BERT;第４节根据不同模型的所属类别提出典型的中文预训练模型的分类方法,并汇总了中文预训练模型的相关资源;第５节梳理了中文领域的不同评测基准;最后总结全文并展望未来.

２预训练模型

2.1 预训练模型发展史

从预训练语言模型的发展时间来看,可以将其分为静态预训练模型和动态预训练模型.２０１３年,Mikolov等[５]在神经网络语言模型(NeuralNetworkLanguageModel,NNLM) 思想的基础上提出 Word２Vec,并引入大规模预训练的思路, 旨在训练具有特征表示的词向量,其中包括 CBOW 和 SkipＧ Gram 两种训练方式.相比 NNLM 模型,Word２Vec可以更全面地捕捉上下文信息,弥补 NNLM 模型只能看到上文信息的不足,提高模型的预测准确性,Word２Vec极大地促进了深度学习在 NLP中的发展.自 Word２Vec模型被提出以来,一批训练词向量的模型相继涌现,例如,Glove [６]和 FastText [７] 等模型均考虑如何得到文本单词较好的词向量表示,虽然对下游任务性能有所提升,但其本质上仍是一种静态的预训练模型.

２０１８年,Peters等[８]提出的 ELMo模型将语言模型带入动态的预训练时代.ELMo模型采用双层双向的 LSTM [９]编码器进行预训练,提取上下文信息,并将各层词嵌入输入特定下游任务中进行微调.该模型不仅可以学习到底层单词的基础特征,而且可以学到高层的句法和语义信息.然而,ELMo 模型只能进行串行计算,无法并行计算,模型训练的效率较低;此外,该模型无法对长序列文本进行建模,常出现梯度消失等问题.而后,OpenAI提出了 GPT(GenerativePreＧtraiＧ ning)[１０]模型.与 ELMo模型不同,GPT 采用 Transformer 深度神经网络,其处理长文本建模的能力强于 LSTM,仅使用 Transformer解码器进行特征提取,在机器翻译等生成式任务上表现惊人,但这一特点也导致 GPT 只利用到了当前词前面的文本信息,并没有考虑到后文信息,其本质上依旧是一种单向语言模型.为了解决 GPT等模型单向建模的问题,２０１８年, Devlin等[４]提出了 BERT 模型,该模型是第一个基于 Transformer的双向自监督学习的预训练模型,在英文语言理解评测基准[１１]榜单中的多个任务上达到了SOTA 结果,此后出现了一大批基于 BERT的预训练模型,大幅提升了下游自然语言处理任务的性能.中文预训练模型虽然起步较晚, 但发展迅速,已经取得了一定成果,本文第４节将对其进行重点介绍.

2.2 研究中文预训练模型的原因

首先,中文和英文分别是世界上使用人数最多和范围最广的两种语言,然而在自然语言处理领域,英文预训练模型较为普遍,例如,以 BERT 为首及其后出现的大量预训练模型均是在单一语料英文数据集上进行训练,此外模型的设计理念也更适用于英文,比如分词方式及掩码方式等.其次,中文和英文语言本质上存在差异,它们的主要区别是,中文文本通常由多个连续的字符组成,词与词之间没有明显的分隔符. 如果使用英文预训练模型去处理常见的中文任务,效果往往不佳.因此,为了推动中文领域自然语言处理技术和预训练模型在多语言任务方面的发展,构建以中文为核心的预训练模型势在必行.

３ Transformer和 BERT

自２０２１年以来,中文预训练模型进入井喷式的发展阶段,其架构主要基于 Transformer和 BERT 两种基础模型,本节主要介绍这两种模型. 图１为典型的 Transformer架构,该架构由６个结构相同的编码器和解码器堆叠而成.单个编码器由堆叠的自注意力层和前馈神经网络组成,解码器由堆叠的自注意力层、掩码注意力层和前馈神经网络组成.有关 Transformer的详细细节介绍请参考文献[１４].

BERT

BERT [４] (Bidirectional Encoder Representations from Transformers)是由谷歌提出的一种面向自然语言处理任务的无监督预训练语言模型,由 Transformer的双向编码器表示.BERT的架构如图２所示.

图２ BERT示意图[４]

４中文预训练模型分类

在自然语言处理领域,继 Transformer和 BERT 出现之后,涌现出大量的预训练模型,这些模型主要针对英文领域, 中文领域的研究起步较晚.但在近两年,中文预训练模型受到广大学者的关注并取得了一定的研究成果.为了阐明现有的中文预训练模型,本节主要从以下６个方面对现有的预训练模型进行分类,图３展示了典型的中文预训练模型的分类图.

(１) 预训练模型的方法改进,主要包括掩码方式的转变、位置编码的转变、LN 层的位置变化、MoE 层的使用、多粒度训练和其他改进.

(２) 融入外部信息的预训练,主要包括命名实体、知识图谱、语言学知识和特定知识.

(３) 关于多模态融合的预训练模型.

(４) 侧重于高效计算的预训练,主要包括数据处理阶段、预训练阶段以及技术优化.

(５) 指特定领域的预训练,主要包括对话系统和其他领域的预训练模型.

(６) 介绍一些其他变体,主要侧重于典型的英文预训练模型开源的中文版本.

图３中文预训练模型分类图

5. 中文领域的评测基准

5.1 为什么建立中文领域的评测基准

首先,从使用人数上看,中国人口占世界人口的五分之一,人数庞大,因此中文是世界上使用人数最多的语言;其次, 从语言体系上看,中文与英文差异较大;最后,从数据集角度出发,中文领域公开可用的数据集较少,此前提出的中文预训练模型在英文评测基准上评估,无法完全体现出模型性能. 当下预训练模型的发展极其迅速,英文领域的评测基准已步入成熟阶段,而中文领域的缺失必然会导致技术落后,因此中文领域的评测基准必不可少.本节主要介绍４种不同的评测基准.

６研究趋势与展望

中文预训练模型已在多个领域实现商业化落地,并展现出一定的市场潜力,取得了长足发展,但也存在较多挑战,例如预训练模型规模和性能之间的平衡问题;如何构建更加通用型的预训练模型;如何突破现有多模态和轻量化模型的瓶颈;如何构建融入更多中文特色的预训练模型等.本文主要从以下几个方面对未来进行展望.

6.1 规模

随着以 BERT和 GPT等为代表的大规模预训练模型的出现,逐渐掀起了预训练模型朝大规模方向发展的浪潮.大量的研究表明,模型参数量越大,训练数据量越多的预训练模型表现更出色.中文领域存在众多大规模预训练模型,如源１．０参数２４５７亿,训练数据集达５０００GB;ERNIE３．０Titan 参数２６００亿;中文多模态模型 M６参数量已经扩展至十万亿级别.目前预训练模型还未达到模型的性能极限,增大模型参数量和训练数据仍是提高模型性能最有效的手段,探索超大规模预训练模型的道路还将继续,也需要更加注重模型的创新性、训练的低碳化和应用的高效性. 然而,训练超大规模的模型仍存在很大挑战.首先,使用最大 GPU 也不可能在内存中拟合所有参数;其次,算法优化不足会耗费极长的训练时间;最后,搭建超大规模模型会带来巨大的成本,让学术界和小型科技公司望而却步.如何在模型性能和成本之间取得平衡也是当前学者探索的另外一条道路,如探索轻量化的预训练模型.近期腾讯提出的“神农”、澜舟科技提出的“孟子”及IDEA 研究院提出的“二郎神”等轻量化模型,仅以十亿左右的参数量就在部分任务上达到了 SOＧ TA 结果,因此探索轻量化模型势在必行.

6.2 融入外部信息

预训练模型在部分任务上已无限接近人类,甚至超越人类,然而,其对知识的掌握依旧不足,如何让预训练模型真正理解并运用知识是一个值得长期研究的课题,尤其是中华民族上下五千年形成的文化知识颇多,比如“常识性知识”和“特定领域的知识”等.特定领域的知识可以帮助模型挖掘不同领域特有的知识,如果能够将特定领域的行业知识与模型结合起来训练,不仅可以将预训练模型更广泛地应用到不同的下游任务,在各行各业中实现良好的产业落地,而且可以与脑科学、心理学、神经学等其他学科融合,更好地发展人工智能, 服务人类生活. 除了融入知识信息之外,还可以从中文字形和字音等方面考虑.因为中文语言的特殊性,其字符的符号也包含一些额外信息,这些额外信息能增强中文自然语言的表现力,如 ChineseBERT [４６]模型中提出将中文字形和拼音信息融入预训练模型中,以此增强模型对中文语料的建模能力,但这一方向的研究还相对较少,仍有待完善.

6.3 多模态领域

现实世界离不开语言,语言离不开语音和视觉信息,类似于人的感觉器官:眼、耳、嘴,任何一样的缺失都会影响生活. 当前,互联网音视频资源占比较大,纯文本信息只能覆盖互联网资源的一小部分,更加丰富的音视频信息并没有被充分利用,因此预训练模型必然朝着多模态的趋势发展.目前,多模态预训练模型的研究大多只考虑了两种模态,图像文本或者视频文本,而音频信息大多被忽视.中文预训练模型起步虽晚,但成绩斐然.中科院自动化所提出了全球首个图文音(视觉Ｇ文本Ｇ语音)三模态的预训练模型 OPT [５１],该模型同时具备跨模态理解与生成的能力.通过上述分析可知,多模态的研究拥有很大的发展空间.

本文主要围绕中文预训练模型的研究现状进行概述 .从模型规模上看,中文预训练模型的发展正处于两条道路上.一是朝着超大规模预训练模型的方向发展;二是寻求轻量化模型的发展.从外部信息来看,大多数的预训练模型都融入了各种知识,预训练与先验知识的深度融合刻不容缓.从高效训练上看,现有模型都在不断地探索更加高效的训练方式.从多模态的角度上看,中文多模态预训练模型的发展正处于上升阶段,正朝着更多模态、更加通用的方向发展.从特定领域的模型来看,预训练模型可应用于多种领域, 具有较大的发展潜力.综上所述,中文预训练模型虽然取得了不可忽视的成绩,但还有更大的发展空间,未来将朝着更大规模、更加高效、适用更多领域的方向发展.

专知便捷查看