Catastrophic forgetting in neural networks during incremental learning remains a challenging problem. Previous research investigated catastrophic forgetting in fully connected networks, with some earlier work exploring activation functions and learning algorithms. Applications of neural networks have been extended to include similarity and metric learning. It is of significant interest to understand how metric learning loss functions would be affected by catastrophic forgetting. Our research investigates catastrophic forgetting for four well-known metric-based loss functions during incremental class learning. The loss functions are angular, contrastive, centre, and triplet loss. Our results show that the rate of catastrophic forgetting is different across loss functions on multiple datasets. The angular loss was least affected, followed by contrastive, triplet loss, and centre loss with good mining techniques. We implemented three existing incremental learning techniques, iCARL, EWC, and EBLL. We further proposed our novel technique using VAEs to generate representation as exemplars that are passed through intermediate layers of the network. Our method outperformed the three existing techniques. We have shown that we do not require stored images as exemplars for incremental learning with similarity learning. The generated representations can help preserve regions of the embedding space used by prior knowledge so that new knowledge will not "overwrite" prior knowledge.


翻译:在渐进学习期间,神经网络中的灾难性遗忘是一个棘手的问题。 先前的研究调查了在完全连接的网络中灾难性遗忘的问题,有些早期的工作探索了激活功能和学习算法。 神经网络的应用已经扩展, 包括了相似性和量度学习。 了解灾难性遗忘将如何影响矩阵学习损失功能。 我们的研究调查了在递增班级学习期间四个众所周知的基于指标的损失函数的灾难性遗忘。 损失功能是角形的、对比性的、中心和三重损失。 我们的结果显示, 灾难性遗忘的速度在多个数据集中的各种损失函数中是不同的。 三角损失的影响最小, 其次是对比性的、 三重损失, 以及以良好的采矿技术造成的中心损失。 我们应用了三种现有的递增学习技术, iCARL、 EWC 和 EBLLL。 我们进一步建议我们的新技术, 使用VAEs作为通过网络的中间层生成的外表征。 我们的方法超越了三种现有技术。 我们已经表明, 我们不需要存储图像作为递增学习类似性学习的演示品。 生成的演示会有助于保存先前知识的区域。

0
下载
关闭预览

相关内容

损失函数,在AI中亦称呼距离函数,度量函数。此处的距离代表的是抽象性的,代表真实数据与预测数据之间的误差。损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
91+阅读 · 2020年7月4日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
97+阅读 · 2019年12月23日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
155+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
经典回顾 | Collaborative Metric Learning
机器学习与推荐算法
6+阅读 · 2020年9月18日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
7+阅读 · 2020年10月9日
Arxiv
6+阅读 · 2019年11月14日
Arxiv
3+阅读 · 2019年6月5日
VIP会员
相关VIP内容
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
91+阅读 · 2020年7月4日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
97+阅读 · 2019年12月23日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
155+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
相关资讯
经典回顾 | Collaborative Metric Learning
机器学习与推荐算法
6+阅读 · 2020年9月18日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员