Language model based pre-trained models such as BERT have provided significant gains across different NLP tasks. In this paper, we study different types of transformer based pre-trained models such as auto-regressive models (GPT-2), auto-encoder models (BERT), and seq2seq models (BART) for conditional data augmentation. We show that prepending the class labels to text sequences provides a simple yet effective way to condition the pre-trained models for data augmentation. Additionally, on three classification benchmarks, pre-trained Seq2Seq model outperforms other data augmentation methods in a low-resource setting. Further, we explore how different pre-trained model based data augmentation differs in-terms of data diversity, and how well such methods preserve the class-label information.


翻译:基于语言的预培训模型,如BERT,在不同的国家劳工计划任务中取得了显著成果。在本文中,我们研究了基于不同类型的基于变压器的预培训模型,如自动递减模型(GPT-2)、自动编码模型(BERT)和有条件数据扩增的后继2seq模型(BART)等。我们表明,在文本序列中预先打上类标签为确定经过预先培训的数据扩增模型提供了简单而有效的条件。此外,在三个分类基准方面,预先培训的Seq2Seqe模型在低资源环境下优于其他数据扩增方法。此外,我们探索了不同经过培训的基于数据扩增模型在数据多样性的术语上如何不同,以及这类方法如何保护分类标签信息。

0
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
已删除
将门创投
4+阅读 · 2019年11月8日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
站在BERT肩膀上的NLP新秀们(PART III)
AINLP
11+阅读 · 2019年6月18日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
38+阅读 · 2020年12月2日
Does Data Augmentation Benefit from Split BatchNorms
Arxiv
3+阅读 · 2020年10月15日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
6+阅读 · 2019年7月11日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年11月8日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
站在BERT肩膀上的NLP新秀们(PART III)
AINLP
11+阅读 · 2019年6月18日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员