首发于RUC AIM3
ACL2021论文分享(预训练专题)

ACL2021论文分享(预训练专题)

今天为大家带来的的是ACL 2021会议上预训练相关的几篇论文~

1. Template-Based Named Entity Recognition Using BART

本文关注的任务是少样本的命名实体识别,即在源领域有数量充足的训练样本,但是在目标领域只有少量的训练样本。此外目标领域的实体集合可能和源领域有很大差别。例如新闻领域里提及一个人,类别往往是‘PERSON’,但是在电影领域,他的类别可能就是“CHARACTER”。目前存在一些方法通过一个基于相似度的算法来直接利用源领域中的知识,但是这些方法都不会直接在目标领域优化命名实体识别模型。为了更好的利用目标领域的少数训练样本,本文提出了一个基于模板的命名实体识别模型。该模型将命名实体识别从序列标注任务转化为序列生成任务,例如通过生成“A is a PERSON entity”来判断A是‘PERSON’类别的命名实体。由于生成序列时是基于整个预训练模型的词典的,使得在源领域上训练的模型可以在目标领域上继续微调,达到知识迁移的目的。

2. ERICA: Improving Entity and Relation Understanding for
Pre-trained Language Models via Contrastive Learning

本文关注的自然语言处理中与实体和关系相关的任务,例如关系抽取等。现有的预训练语言模型在训练阶段并不存在专门的任务去显示地建模实体间的关系。这种知识对于涉及实体和关系的任务是十分关键的。为此,本文专门涉及了两个预训练任务去帮助预训练模型编码这类知识。第一个任务名为实体区分任务,该任务主要目的是使得文章中存在关系的实体表示在语义空间中距离更近;第二个任务名为关系区分任务,该任务的主要目的是使得不同上下文中的同一个关系的表示在语义空间中距离更近。两个任务的训练都采用了对比学习的形式。在多个与实体和关系相关任务上,引入了这两种训练任务的BERT或者RoBERTa都取得了更好的效果。

3. Pre-training Universal Language Representation

背景介绍

语言表征学习一直是NLP领域重要的研究课题。从词语层级的表征学习,如Word2Vec, GloVe等, 到句子层级的表征学习,如BERT, RoBERTa等,都是针对某一特定语言粒度的。本篇论文提出对不同语言粒度的文本,包括词语,短语及句子,学习统一的语义表征向量。这无论在对话系统,还是不定长文本检索中都有广泛的应用需求。由于对话中人们的问题往往是形式长度不确定的,因此学习统一的向量表征可以方便进行统一的计算。为了让不同长度的文本嵌入到统一的向量空间,作者首先从词语表征空间的特性入手。词语表征空间内的向量满足语义可计算性,比如King - Man = Queen – Woman。因此,作者把这一特性上升到任意语言粒度,则有Eat an onion : Vegetable :: Eat a pear : Fruit. 因此,作者以此作为学得统一表征的新训练目标。

方法介绍

对于一个文本输入序列 S,首先对其抽取多个有意义的n-gram。在训练时,挑选其中一个n-gram 记作w, 将S分为w和R两部分。新的训练目标MiSAD即是优化Ew+ER与ES的距离。这里涉及两个细节,一个是n-gram的抽取,一个是n-gram的采样。对于n-gram抽取,作者通过计算每个n-gram的PMI score,即以n-gram形式出现的概率减去单个词语出现概率和。PMI score高的n-gram可以认为是有意义的n-gram。在根据预设阈值选出多个n-gram后,通过计算mask每个n-gram,生成它们的概率确定哪个n-gram是对于当前模型最难的,从而将其作为此次训练使用的n-gram。作者以BERT模型为框架,在此基础上,使用MLM任务和新提出的MiSAD任务对模型继续训练。经过实验发现,所提出的MiSAD任务不仅可以有效帮助学习不同文本粒度的统一表征,它对NLP多个下游任务也普遍有提升作用。

4. ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

背景介绍

此前的中文预训练模型都忽视了中文的两个重要特性:字形和拼音。首先,汉字是表意文字,字形中便蕴含着丰富的语义信息,比如“液”,“河”,“湖”都具有三点水旁,表示的含义都和水有关。此外,汉字也存在大量的多音字,不同的读音往往有着不同的语义,比如“乐”(lè / yuè),“还”(huán / hái)等,因此拼音也蕴含着重要的信息。为此,本文提出了针对中文的预训练模型ChineseBERT,将中文的字形和拼音信息引入到模型中。

方法介绍

本文的模型采用基于BERT的结构,仅使用MLM任务训练,在输入阶段融合中文的字形和拼音信息。针对字形,本文将汉字的3种字体(仿宋、行楷、隶书)的大小为24*24的图片向量拼接和拉平,得到1728维的向量,通过一层全连接层得到字形嵌入;针对拼音,本文将汉字通过pypinyin得到的拼音和音调的字符序列,如猫(mao1),然后通过宽度为2的1-D CNN编码,max-pooling后得到拼音嵌入。随后将汉字的字嵌入、字形嵌入和拼音嵌入拼接并通过一层全连接层,得到融合后的嵌入,和位置嵌入相加后输入到模型中进行训练。

本文的模型还有针对训练策略的一些优化。对于掩码策略,本文以90%的概率进行全词掩码(Whole Word Masking, WWM),10%的概率进行单字掩码(Char Masking, CM)。此外,为了学习长期和短期的依赖,本文交替使用packed input和single input进行训练,分别以0.9和0.1的概率。其中packed input指的是将输入的文本拼接至最大长度512,single input指的是以单个句子作为输入。

本文的模型在机器阅读理解、自然语言推理、文本分类、句对匹配、命名实体识别和中文分词等6个任务上取得了显著的效果提升。本文的模型需要更少的训练数据和训练步数,表明引入的字形嵌入和拼音嵌入为中文语义建模起到了较强的正则化效果。

论文地址:arxiv.org/abs/2106.1603

代码地址:github.com/ShannonAI/Ch

5. Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word Alignment

本文是一篇关于多语言预训练模型的工作。在NLP领域,目前大多数工作都是以英语为中心进行展开的。因此,如何将资源丰富的语言知识迁移到资源较低的语言上是现阶段的一个重要问题。多语言模型就是通过在单语语料和平行语料上进行训练,学习语言之间共同的语义,进而实现跨语言知识迁移。对此,目前有很多预训练任务完成这一目标,比如利用单语语料的Masked Language Modeling(MLM);利用平行语料的Translation Language Modeling(TLM)等。但是多数任务要么只在sentence-level上促进多种语言的对应关系,要么只是隐式地进行促进。而显式,并且更加细粒度(比如不同语言词与词上的联系)促进语言之间对应关系的方法还有待探索。其原因主要没有足够的细粒度标注数据以支撑预训练。

对此,XLM-Align提出了新的预训练任务Denoising word alignment(DWA)实现了细粒度显式的监督。如上图所示,首先通过自监督的方法对平行语料中的词对应关系进行标注,然后随机mask一些词,还原这个词在另一种语言中的对应关系。这篇工作将词之间的对应视作一个最优传输问题(Optimal Transport,OT),将两种语言经过encoder编码得到的向量之间的相似度视为传输距离,通过求解传输矩阵和Itermax算法得到词与词之间对应关系的伪标注。利用attention机制得到mask词在另一种语言单词上的分布,并让这个分布与OT得到的连接结果接近。实验证明通过在多语言预训练模型XLM-R基础上继续训练该任务,在XTREME评测当中能够取得更好的结果,并且在词对应关系预测上也实现了更低的错误率。

6. How to Adapt Your Pretrained Multilingual Model to 1600 Languages

这篇工作主要研究如何使用极少并且domain非常窄得目标语言数据对预训练模型进行跨语言迁移的问题。尽管多语言预训练模型有一定的跨语言迁移能力,但是性能和目标语言密切相关。当目标语言已经在预训练模型中存在并被表示得很好时,将下游任务知识迁移到该语言相对容易;而对于预训练模型没有见过得语言可能表现糟糕。如今多语言预训练模型已经能够支持100多种语言,但是对于世界上一共有4000多种语言,绝大部分没有足够的数据包含在预训练当中。因此如何将预训练模型适应到资源极低、数据domain很窄的语言上是一个重要的研究问题。

该工作采用圣经作为迁移训练所使用的数据。圣经拥有1600中语言的版本,作者从中选择了30种语言进行实验。这30种语言尽可能多地涵盖不同的语系和scripts类型,并且能够至少支持NER或POS一种下游任务的评测。这种场景下,该工作对MLM/TLM继续预训练、扩展词表和Task&Language Adapter三种跨语言迁移方法在进行了深入探究,发现多数情况下这些adaptation方法比直接对多语言预训练模型直接进行finetune的迁移能力更强;在资源极低、domain极窄的场景下,增加了参数量的方法(扩展词表和Adapter)表现不如直接继续进行预训练的方法;作者还观察发现在domain较窄的情况下,当目标语言scripts与下游任务数据的scripts不相同时,迁移学习的作用更加明显;对于domain,使用domain相近的目标语言数据进行迁移学习能带来更好的迁移性能。

编辑于 2021-09-08 09:47