Adversarial regularization can improve model generalization in many natural language processing tasks. However, conventional approaches are computationally expensive since they need to generate a perturbation for each sample in each epoch. We propose a new adversarial regularization method ARCH (adversarial regularization with caching), where perturbations are generated and cached once every several epochs. As caching all the perturbations imposes memory usage concerns, we adopt a K-nearest neighbors-based strategy to tackle this issue. The strategy only requires caching a small amount of perturbations, without introducing additional training time. We evaluate our proposed method on a set of neural machine translation and natural language understanding tasks. We observe that ARCH significantly eases the computational burden (saves up to 70\% of computational time in comparison with conventional approaches). More surprisingly, by reducing the variance of stochastic gradients, ARCH produces a notably better (in most of the tasks) or comparable model generalization. Our code is publicly available.


翻译:自动正规化可以改善许多自然语言处理任务的典型概括化。 但是,常规方法在计算上成本很高,因为它们需要为每个时代的每个样本产生扰动。 我们建议采用新的对抗性正规化法ARCH(对抗性正规化,用缓冲法),每几个时代就产生一次扰动并缓存一次。随着所有扰动的不断累积,都会引起记忆使用问题,我们采取了K型邻国战略来解决这一问题。这个战略只需要在不引入额外培训时间的情况下进行少量扰动即可。我们评估了一套神经机器翻译和自然语言理解任务的拟议方法。我们发现,ARCH大大减轻了计算负担(比常规方法节省了70 ⁇ 计算时间 ) 。 更令人惊讶的是,由于缩小了随机梯度的差异,ARCH产生了显著的更好(大部分任务)或可比的模型概括化。我们的代码是公开的。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2020年12月28日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
150+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月3日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
4+阅读 · 2015年3月20日
VIP会员
相关VIP内容
专知会员服务
33+阅读 · 2020年12月28日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
150+阅读 · 2019年10月12日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年11月3日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
4+阅读 · 2015年3月20日
Top
微信扫码咨询专知VIP会员