Data augmentation (DA) aims to generate constrained and diversified data to improve classifiers in Low-Resource Classification (LRC). Previous studies mostly use a fine-tuned Language Model (LM) to strengthen the constraints but ignore the fact that the potential of diversity could improve the effectiveness of generated data. In LRC, strong constraints but weak diversity in DA result in the poor generalization ability of classifiers. To address this dilemma, we propose a {D}iversity-{E}nhanced and {C}onstraints-\{R}elaxed {A}ugmentation (DECRA). Our DECRA has two essential components on top of a transformer-based backbone model. 1) A k-beta augmentation, an essential component of DECRA, is proposed to enhance the diversity in generating constrained data. It expands the changing scope and improves the degree of complexity of the generated data. 2) A masked language model loss, instead of fine-tuning, is used as a regularization. It relaxes constraints so that the classifier can be trained with more scattered generated data. The combination of these two components generates data that can reach or approach category boundaries and hence help the classifier generalize better. We evaluate our DECRA on three public benchmark datasets under low-resource settings. Extensive experiments demonstrate that our DECRA outperforms state-of-the-art approaches by 3.8% in the overall score.


翻译:数据增强(DA)的目的是产生限制和多样化的数据,以改进低源分类中的分类。以往的研究大多使用微调的语言模式(LM)来加强限制,但忽视多样性的潜力可以提高生成数据的有效性这一事实。在LRC, 强大的限制但DA多样性薄弱,导致分类者普遍化能力差。为了解决这一难题,我们建议使用一个{D}niversity-{E}加强和{C}限制 放松 {A} 增强。我们的DERA(DERC)在基于变压器的骨架模型(LM)之上有两个基本组成部分。 (1) 增强 k-beta,这是DECRA的一个基本组成部分,目的是加强生成受限制数据的多样性。它扩大了变化的范围,提高了生成数据的复杂性程度。 (2) 使用隐蔽的语言模式损失,而不是微调,作为正规化。它放松了限制,以便分类者能够用更分散的生成数据来培训。 这两种组成部分的组合,是DECR(DER)的一个基本组成部分,这是DERA)一个基本的分类方法,我们可以在三个类别下进行更精确的排序。

0
下载
关闭预览

相关内容

【CVPR2021】动态度量学习
专知会员服务
39+阅读 · 2021年3月30日
【斯坦福经典书最新版】语音语言处理,653页pdf
专知会员服务
51+阅读 · 2021年1月1日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
35+阅读 · 2020年9月2日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
已删除
将门创投
3+阅读 · 2019年9月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月16日
Arxiv
8+阅读 · 2021年10月28日
A Survey on Data Augmentation for Text Classification
Arxiv
6+阅读 · 2019年3月19日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年9月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员