Deep neural networks achieve state-of-the-art and sometimes super-human performance across various domains. However, when learning tasks sequentially, the networks easily forget the knowledge of previous tasks, known as "catastrophic forgetting". To achieve the consistencies between the old tasks and the new task, one effective solution is to modify the gradient for update. Previous methods enforce independent gradient constraints for different tasks, while we consider these gradients contain complex information, and propose to leverage inter-task information by gradient decomposition. In particular, the gradient of an old task is decomposed into a part shared by all old tasks and a part specific to that task. The gradient for update should be close to the gradient of the new task, consistent with the gradients shared by all old tasks, and orthogonal to the space spanned by the gradients specific to the old tasks. In this way, our approach encourages common knowledge consolidation without impairing the task-specific knowledge. Furthermore, the optimization is performed for the gradients of each layer separately rather than the concatenation of all gradients as in previous works. This effectively avoids the influence of the magnitude variation of the gradients in different layers. Extensive experiments validate the effectiveness of both gradient-decomposed optimization and layer-wise updates. Our proposed method achieves state-of-the-art results on various benchmarks of continual learning.


翻译:深心神经网络在不同领域实现最先进的、有时是超人的业绩。然而,当学习任务相继进行时,这些网络很容易忘记以前任务的知识,即“灾难性的忘记” 。为了实现旧任务和新任务之间的一致性,一个有效的解决办法是修改梯度以更新。 以往的方法对不同任务实施独立的梯度限制,而我们则认为这些梯度包含复杂信息,并提议通过梯度分解利用任务间信息。特别是,旧任务的梯度被分解成所有旧任务共有的部分,而该任务则有一部分。更新的梯度应接近新任务的梯度,这与所有旧任务共有的梯度一致,或者与旧任务所特有的梯度所跨越的空间一致。这样,我们的方法鼓励在不损害特定任务知识的情况下整合共同的知识。此外,对每个层次的梯度进行优化是分别的,而不是与以前工作的所有梯度相交配。 更新的梯度的梯度的梯度的梯度应该接近于新任务的梯度梯度梯度梯度梯度梯度梯度梯度梯度梯度梯度梯度,这与所有旧任务共有的梯度梯度梯度的梯度梯度梯度梯度的梯度,与所有旧任务共有的梯度的梯度比。 更新的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度应该避免了新的梯度梯度梯度梯度梯度,与所有旧的梯度的梯度的梯度比,与所有旧任务的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度差度差度比。 。这可以有效避免了新度的梯度的梯度的梯度的梯度的梯度的梯度与旧的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度与旧的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度与旧的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度的梯度与旧的梯度的梯度的梯度

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
36+阅读 · 2020年2月27日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
46+阅读 · 2020年1月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Multi-Domain Multi-Task Rehearsal for Lifelong Learning
Arxiv
12+阅读 · 2020年12月14日
Meta-Transfer Learning for Zero-Shot Super-Resolution
Arxiv
43+阅读 · 2020年2月27日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
6+阅读 · 2018年12月10日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
8+阅读 · 2018年12月6日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Multi-Domain Multi-Task Rehearsal for Lifelong Learning
Arxiv
12+阅读 · 2020年12月14日
Meta-Transfer Learning for Zero-Shot Super-Resolution
Arxiv
43+阅读 · 2020年2月27日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
6+阅读 · 2018年12月10日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
8+阅读 · 2018年12月6日
Top
微信扫码咨询专知VIP会员