In continual learning (CL), model growth enhances adaptability to new data. However, when model growth is applied improperly, especially in task-agnostic CL, where the entire grown model is used for inference, it can lead to severe degradation of learned knowledge, a problem we term growth-induced forgetting. Most existing methods that adopt model growth to improve adaptability often overlook the forgetting issue, resulting in compromised knowledge retention, making them unsuitable for task-agnostic settings. To promote both adaptability and knowledge retention with model growth, we identify the key: gradient and parameter sparsity. Introducing SparseGrow, which increases gradient sparsity through layer expansion and gradient gating to enable focused updates on parameters while preserving critical parameters, thus inhibiting forgetting. Moreover, it promotes parameter sparsity with sparse initialization and training, aiming at better control of model plasticity, improving adaptability over new data. Extensive experiments across diverse datasets, task-agnostic settings, and a large number of tasks demonstrate the necessity of controlled layer expansion and validate the effectiveness of SparseGrow in achieving high adaptability while minimizing forgetting in continual learning. By enabling model growth with sparsified gradients and parameters, SparseGrow paves the way for building scalable lifelong learning systems capable of continual adaptation with better knowledge retention.


翻译:在持续学习(CL)中,模型增长能增强对新数据的适应能力。然而,当模型增长应用不当时,尤其是在任务无关的持续学习中(整个增长后的模型被用于推理),可能导致已学知识的严重退化,这一问题我们称之为增长诱发遗忘。大多数采用模型增长以提高适应性的现有方法往往忽视了遗忘问题,导致知识保留受损,使其不适用于任务无关的设置。为了通过模型增长同时促进适应性和知识保留,我们确定了关键所在:梯度和参数稀疏性。我们提出SparseGrow,它通过层扩展和梯度门控来增加梯度稀疏性,从而实现对参数的有针对性更新,同时保留关键参数以抑制遗忘。此外,它通过稀疏初始化和稀疏训练来促进参数稀疏性,旨在更好地控制模型可塑性,提高对新数据的适应能力。在多样化数据集、任务无关设置以及大量任务上的广泛实验证明了受控层扩展的必要性,并验证了SparseGrow在实现高适应性的同时最小化持续学习中遗忘的有效性。通过利用稀疏化梯度和参数实现模型增长,SparseGrow为构建能够持续适应且具有更好知识保留能力的可扩展终身学习系统铺平了道路。

0
下载
关闭预览

相关内容

【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员