The core of self-supervised learning for pre-training language models includes pre-training task design as well as appropriate data augmentation. Most data augmentations in language model pre-training are context-independent. A seminal contextualized augmentation was recently proposed in ELECTRA and achieved state-of-the-art performance by introducing an auxiliary generation network (generator) to produce contextualized data augmentation for the training of a main discrimination network (discriminator). This design, however, introduces extra computation cost of the generator and a need to adjust the relative capability between the generator and the discriminator. In this paper, we propose a self-augmentation strategy (SAS) where a single network is utilized for both regular pre-training and contextualized data augmentation for the training in later epochs. Essentially, this strategy eliminates a separate generator and uses the single network to jointly conduct two pre-training tasks with MLM (Masked Language Modeling) and RTD (Replaced Token Detection) heads. It avoids the challenge to search for an appropriate size of the generator, which is critical to the performance as evidenced in ELECTRA and its subsequent variant models. In addition, SAS is a general strategy that can be seamlessly combined with many new techniques emerging recently or in the future, such as the disentangled attention mechanism from DeBERTa. Our experiments show that SAS is able to outperform ELECTRA and other state-of-the-art models in the GLUE tasks with similar or less computation cost.


翻译:培训前语言模型自我监督学习的核心包括培训前任务设计以及适当的数据增强。语言模式培训前多数数据增强是不受背景影响的。最近在ELECTRA中提议了一种先入为主的增强功能,并通过引入一个辅助生成网络(生成器)来产生背景化数据增强功能,用于培训主要歧视网络(差异模型),但这一设计引入了发电机的额外计算成本,并需要调整发电机与导师之间的相对能力。在本文中,我们建议了一种自我增强战略(SAS),即利用一个单一网络进行定期培训前和背景化数据增强功能,用于后期培训。基本上,该战略取消了一个单独的生成器,并使用单一网络联合开展两项培训前任务,与MLM(假语言模型)和RTD(替换托肯检测)头一起,引入了额外的计算成本,并需要调整发电机与导师之间的相对能力。我们建议了一个自我增强的自我增强战略(SAS)的恰当规模(SAS)战略(ELTRA)对于后期的运行模式至关重要,这在新的战略中可以证明为常规模式或未来模式,在新的变式中可以展示。

0
下载
关闭预览

相关内容

静态分析越来越被认为是程序验证、错误检测、编译器优化、程序理解和软件维护的基本工具。国际静态分析系列研讨会(SAS)是展示该领域理论、实践和应用进展的主要场所。官网链接:http://www.staticanalysis.org/
BERT进展2019四篇必读论文
专知会员服务
65+阅读 · 2020年1月2日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【赛尔笔记】文本摘要论文列表
深度学习自然语言处理
3+阅读 · 2020年10月30日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2022年2月19日
Learning Dynamic Routing for Semantic Segmentation
Arxiv
8+阅读 · 2020年3月23日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
VIP会员
相关资讯
【赛尔笔记】文本摘要论文列表
深度学习自然语言处理
3+阅读 · 2020年10月30日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员