The core of a self-supervised learning method for pre-training language models includes the design of appropriate data augmentation and corresponding pre-training task(s). Most data augmentations in language model pre-training are context-independent. The seminal contextualized augmentation recently proposed by the ELECTRA requires a separate generator, which leads to extra computation cost as well as the challenge in adjusting the capability of its generator relative to that of the other model component(s). We propose a self-augmented strategy (SAS) that uses a single forward pass through the model to augment the input data for model training in the next epoch. Essentially our strategy eliminates a separate generator network and uses only one network to generate the data augmentation and undertake two pre-training tasks (the MLM task and the RTD task) jointly, which naturally avoids the challenge in adjusting the generator's capability as well as reduces the computation cost. Additionally, our SAS is a general strategy such that it can seamlessly incorporate many new techniques emerging recently or in the future, such as the disentangled attention mechanism recently proposed by the DeBERTa model. Our experiments show that our SAS is able to outperform the ELECTRA and other state-of-the-art models in the GLUE tasks with the same or less computation cost.


翻译:培训前语言模式的自我监督学习方法的核心包括设计适当的数据增强和相应的培训前任务。语言模式培训前培训前的大多数数据增强都是根据具体情况而定的。ELECTRA最近提出的具有独特背景的增强要求单独一个发电机,这会导致额外的计算成本以及在调整其发电机相对于其他模式组成部分的能力方面遇到的挑战。我们建议了一种自我强化战略,通过该模式使用单一的前进路来扩大下一个时代的模型培训输入数据。我们的战略基本上消除了一个单独的发电机网络,只使用一个网络来产生数据增强,并联合执行两个培训前任务(MLM任务和RTD任务),这自然避免了调整发电机能力以及降低计算成本方面的挑战。此外,我们的SAS是一种总战略,它可以顺利地纳入最近或将来出现的许多新技术,例如DeBERTA模型最近提出的不相干的关注机制。我们的实验表明,我们GLUSAS与其他模型相比,其成本较低。我们的EBRA-LSAS实验表明,我们的E-TRA模型能够以同样的方式调整我们的GLAS。

0
下载
关闭预览

相关内容

静态分析越来越被认为是程序验证、错误检测、编译器优化、程序理解和软件维护的基本工具。国际静态分析系列研讨会(SAS)是展示该领域理论、实践和应用进展的主要场所。官网链接:http://www.staticanalysis.org/
预训练语言模型fine-tuning近期进展概述
专知会员服务
39+阅读 · 2021年4月9日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
听说你还没读过 Bert 源码?
AINLP
7+阅读 · 2019年8月7日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
已删除
将门创投
7+阅读 · 2019年3月28日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Arxiv
0+阅读 · 2021年11月5日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
VIP会员
相关VIP内容
预训练语言模型fine-tuning近期进展概述
专知会员服务
39+阅读 · 2021年4月9日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
听说你还没读过 Bert 源码?
AINLP
7+阅读 · 2019年8月7日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
已删除
将门创投
7+阅读 · 2019年3月28日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Top
微信扫码咨询专知VIP会员