自训练 + 预训练 = 更好的自然语言理解模型

2020 年 11 月 11 日 AI科技评论

来源：香侬科技

编辑 | 陈彩娴

论文标题：

Self-training Improves Pre-training for Natural Language Understanding

论文作者：

Jingfei Du, Edouard Grave, Beliz Gunel, Vishrav Chaudhary, Onur Celebi, Michael Auli, Ves Stoyanov, Alexis Conneau

论文链接：

https://arxiv.org/abs/2010.02194

自训练与预训练

预训练（Pre-training）从广义上来讲，是指先在较大规模的数据上对模型训练一波，然后再在具体的下游任务数据中微调。大多数情况下，预训练的含义都比较狭窄：在大规模无标注语料上，用自监督的方式训练模型。这里的自监督方法一般指的是语言模型。

除了预训练之外，我们还经常在图像领域看到它的一个兄弟，自训练（Self-training）。自训练是说有一个Teacher模型和一个Student模型，首先在标注数据上训练，然后用它对大规模无标注数据进行标注，把得到的结果当做伪标注数据去训练。

显然，预训练和自训练都用到了大规模无标注的数据，只是二者的处理过程不同。而且，其中非常重要的一点是，预训练始终对针对一个模型进行操作，而自训练却用到了两个模型，前者是直接从无标注数据中学习，而后者是间接地从数据中学习。它们的区别可以用下图表示：

那么，一个自然的问题是：这两个方法可以结合起来达到更好的效果吗？本文给出了答案：当然可以！

首先预训练一个模型，然后把这个模型在标注数据上训练后当做，再用它去标注另外一批无标注数据，把得到的伪标注数据用来训练，最后在推理测试的时候使用即可。

从这个过程中可以发现，预训练是为了更好地自训练，自训练是为了更好地训练，二者结合，缺一不可。

总之，本文有如下的贡献：

自训练处理流程

本文所提出的方法可以用下面的图表示，大体分为四步：

其中的1,3,4步都是确定的，所以我们重点关注如何使用从海量通用语料库中抽取出领域相关的语料。

句子编码

通用语料库D 来自Common-Crawl，直接把文档切分为句子，然后以句子为基本单位进行数据提取。

本文使用句子编码方法，用一个编码向量去表示每一个句子。这个句子编码器在多个复述（Paraphrase）数据集上训练，并且还使用了BERT的掩码语言模型在多语言语料上训练，之后就可以用于编码每个句子，得到各自对应的特征向量。在后文中，我们默认使用Transformer编码器。

任务编码

句子编码只能表示通用语料库中每个句子的含义，还不能区分哪些句子是符合领域要求的，这就需要用一个特殊的任务编码，作为查询条件去表示我们想要的句子是怎样的，也就是说，只需要计算句子编码和任务编码的余弦值，就知道这个句子是不是符合要求。为此，考虑三种任务编码：

相关领域数据提取

在获取任务编码后，就可以把它（们）作为询问，根据余弦值大小，从通用语料库中抽取相关的句子，这可以减少通用语料对下游特定任务的噪声干扰。对于每个类别，只抽取Top-K个句子，并且对提取的句子，还要满足能取得较高的置信度。

提取了相关领域的数据后，用对其中每一个句子预测它的标签是什么：，得到其软标签或者one-hot硬标签，这取决于训练的方法是什么。但无论如何，到此为止我们都得到了一个伪标注数据库。

用伪标注语料训练

在得到伪标注语料后，就可以用它去训练了。为此，我们考虑三种训练方法：

自训练（Self-Training）：将另一个预训练的RoBERTa_Large作为，使用one-hot硬标签在上训练；
知识蒸馏（Knowledge-Distillation）：将一个预训练的RoBERTa_Small作为，使用软标签在上训练；
少样本学习（Few-Shot）：训练所使用的标注数据是少样本，伪标注语料的大小是标注数据的2~3个数量级，是RoBERTa_Large，使用one-hot硬标签在上训练。