The vast majority of deep models use multiple gradient signals, typically corresponding to a sum of multiple loss terms, to update a shared set of trainable weights. However, these multiple updates can impede optimal training by pulling the model in conflicting directions. We present Gradient Sign Dropout (GradDrop), a probabilistic masking procedure which samples gradients at an activation layer based on their level of consistency. GradDrop is implemented as a simple deep layer that can be used in any deep net and synergizes with other gradient balancing approaches. We show that GradDrop outperforms the state-of-the-art multiloss methods within traditional multitask and transfer learning settings, and we discuss how GradDrop reveals links between optimal multiloss training and gradient stochasticity.


翻译:绝大多数深层模型使用多个梯度信号,通常与多个损失值之和相对应,以更新一套共同的可训练重量。然而,这些多重更新会通过将模型引向相互冲突的方向而阻碍最佳培训。我们介绍了一种概率化掩码程序,即根据一致性程度在活化层取样梯度。 梯度是作为一个简单的深层层执行的,可用于任何深网,并与其他梯度平衡方法协同使用。 我们显示,格拉德罗普在传统的多任务和转移学习环境中超越了最先进的多损失方法,我们讨论了梯度如何揭示最佳多损失培训与梯度转换之间的联系。

3
下载
关闭预览

相关内容

专知会员服务
45+阅读 · 2020年10月31日
MATLAB玩转深度学习?新书「MATLAB Deep Learning」162页pdf
专知会员服务
101+阅读 · 2020年1月13日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
PyTorch中在反向传播前为什么要手动将梯度清零?
极市平台
39+阅读 · 2019年1月23日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
7+阅读 · 2018年12月26日
Learning to Importance Sample in Primary Sample Space
Arxiv
5+阅读 · 2018年6月5日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关VIP内容
专知会员服务
45+阅读 · 2020年10月31日
MATLAB玩转深度学习?新书「MATLAB Deep Learning」162页pdf
专知会员服务
101+阅读 · 2020年1月13日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
相关资讯
PyTorch中在反向传播前为什么要手动将梯度清零?
极市平台
39+阅读 · 2019年1月23日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员