自然语言处理(NLP)在神经模型的基础上,在过去的十年中取得了很大的进展,经常利用大量的标记数据来实现最先进的性能。对标记数据的依赖使NLP模型无法应用于低资源设置和语言,因为通常需要时间、金钱和专业知识来标记大量文本数据。因此,在有限的标记数据下学习的能力对于将神经系统部署到真实的NLP应用是至关重要的。近年来,人们已经探索了许多方法来缓解自然语言处理中对标记数据的需求,如数据增强和半监督学习。
本教程旨在提供这些方法的系统和最新的概述,以帮助研究人员和从业人员理解从有限的标记数据中学习的方法和挑战,这是计算语言学社区的一个新兴话题。我们将考虑应用于各种各样的NLP任务(包括文本分类、生成和结构化预测),并将突出当前的挑战和未来的方向。
https://github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial
数据增强是一种常用的技术,用于人为地增加给定训练数据集的大小(即数据点的数量)和多样性(即偏离真实数据分布)。小标记训练数据集往往会导致过拟合,数据增强可以通过自动或手动创建增强数据来帮助缓解这个问题。这些技术在计算机视觉(CV)领域中得到了广泛的探索,包括几何/颜色空间转换、混合和随机擦除等方法。虽然文本数据由于其复杂的句法和语义结构而具有一定的挑战性,但文本数据的增强方法却非常广泛。
NLP中具有代表性的数据增强方法包括: token增强,如随机删除或屏蔽令牌(Bowman et al., 2015),用同义词或相关词替换单词(Zhang et al., 2015;Kobayashi, 2018),以及用随机token插入或替换不重要的token (Xie et al.,2017,2019); 通过释义提高句子水平(Roy and Grangier, 2019; Edunov et al., 2018)的基础上,先将句子翻译成某些中间语言,然后再将它们翻译回来,生成具有不同词汇和语言结构(如词性、句法等)的中间语言的意译,可以引入一定的方差,即双向翻译(Xie et al., 2019; Coulombe, 2018),或根据给定的标签生成句子;对抗性数据增强,使用受扰动的数据显著影响模型的预测和信心,而不影响人类判断(Morris et al., 2020),例如使用梯度在模型的隐藏表示中寻找邻居(Cheng et al., 2019)或连接分散但无意义的句子作为段落的结尾(Jia和Liang, 2017);隐藏空间增强,通过添加噪声或对其他数据点进行插值等扰动来操纵隐藏表示(Chen等人,2020a)。
我们将向观众介绍最近广泛使用的数据增强方法,并以NLP应用实例(如无监督翻译的反向翻译)为例,演示如何在实践中利用这些代表性的数据增强技术。
当只有一个小的标签训练数据集可用时,数据增强可以应用在监督设置中产生更好的结果,数据增强也常用在半监督学习中。半监督学习在训练模型时提供了一种利用未标记数据的方法,当只有有限的标记数据可用时,这种方法可以显著改进模型。这在普通设置中特别有用,因为与有标记的数据相比,未标记的数据更便宜、更容易获得。在本教程中,我们将使用示例应用程序或任务,简要讨论最近在NLP研究中探索的各种半监督技术。我们根据现有的半监督学习方法如何利用未标记的数据,将它们分成不同的类别:自训练利用了固有存在或可以从数据集自动生成的监督(McClosky et al.,2006);多任务训练利用带有标签的额外辅助任务,进一步利用与感兴趣任务相关的未标记数据;一致性正则化训练模型,当输入通过数据增强受到干扰时,输出相同的预测(Sachan et al., 2019; Xie et al., 2019; Chen et al., 2020a,b)。
解决数据有限的学习问题还有其他相关方向,如其他半监督学习方法,如自训练(He et al., 2020)、生成模型(Cheng et al., 2016)和协同训练(Clark et al., 2018)。我们将简要讨论这些方法,更具体地说,我们将通过案例研究向观众介绍如何利用上述技术提高低资源语言的性能,包括跨语言迁移学习,它将模型从资源丰富的语言转移到资源贫乏的语言(Schuster et al., 2019),很少/零样本学习(Pham et al., 2019; Abad et al., 2020),只使用了来自低资源领域的几个例子,以适应在另一个领域训练的模型。尽管近年来在数据有限的情况下取得了成功,但为了更好地学习,仍有一些挑战需要解决。为此,我们将通过强调一些挑战来结束我们的教程,包括但不限于数据分布的转移,量化增强的多样性和效率,处理域外未标记的数据,学习特定于文本的数据增强策略,并讨论未来可能有助于推进该领域的方向。