Conventional de-noising methods rely on the assumption that all samples are independent and identically distributed, so the resultant classifier, though disturbed by noise, can still easily identify the noises as the outliers of training distribution. However, the assumption is unrealistic in large-scale data that is inevitably long-tailed. Such imbalanced training data makes a classifier less discriminative for the tail classes, whose previously "easy" noises are now turned into "hard" ones -- they are almost as outliers as the clean tail samples. We introduce this new challenge as Noisy Long-Tailed Classification (NLT). Not surprisingly, we find that most de-noising methods fail to identify the hard noises, resulting in significant performance drop on the three proposed NLT benchmarks: ImageNet-NLT, Animal10-NLT, and Food101-NLT. To this end, we design an iterative noisy learning framework called Hard-to-Easy (H2E). Our bootstrapping philosophy is to first learn a classifier as noise identifier invariant to the class and context distributional changes, reducing "hard" noises to "easy" ones, whose removal further improves the invariance. Experimental results show that our H2E outperforms state-of-the-art de-noising methods and their ablations on long-tailed settings while maintaining a stable performance on the conventional balanced settings. Datasets and codes are available at https://github.com/yxymessi/H2E-Framework


翻译:传统去噪方法依赖于所有样本都是独立同分布的假设。因此,即使被噪声扰动,所得到的分类器仍可以轻松地将噪声识别为训练分布的离群点。然而,在大规模数据中,这种假设是不现实的,因为数据不可避免地是长尾分布的。这种不均衡的训练数据使得分类器对于尾部类别的区分度降低,而尾部类别之前的“易处理”噪声现在被转换为“难处理”的噪声 - 它们几乎与干净的尾部样本一样成为离群值。我们将这个新的挑战称为有噪长尾分类 (NLT)。不出所料,我们发现大多数去噪方法无法识别这些难处理的噪声,导致在三种提出的NLT基准上(ImageNet-NLT,Animal10-NLT和Food101-NLT)效果显著下降。因此,我们设计了一种迭代的有噪学习框架名为Hard-to-Easy(H2E)。我们的引导哲学是首先学习一个分类器作为噪声标识符,它不受类别和上下文分布变化的影响,从而将“难”噪声转化为“易”噪声,其去除进一步提高了不变性。实验结果表明,我们的H2E在长尾设置上优于最先进的去噪方法及其削减,同时在传统平衡设置上保持稳定的性能。数据集和代码可在 https://github.com/yxymessi/H2E-Framework 中获得。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年9月16日
专知会员服务
29+阅读 · 2021年5月20日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
浅聊对比学习(Contrastive Learning)
极市平台
2+阅读 · 2022年7月26日
浅聊对比学习(Contrastive Learning)第一弹
PaperWeekly
0+阅读 · 2022年6月10日
DeepMind开源最牛无监督学习BigBiGAN预训练模型
新智元
10+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
用CNN分100,000类图像
极市平台
17+阅读 · 2018年1月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
14+阅读 · 2022年5月6日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
13+阅读 · 2021年10月9日
Arxiv
38+阅读 · 2021年8月31日
VIP会员
相关资讯
浅聊对比学习(Contrastive Learning)
极市平台
2+阅读 · 2022年7月26日
浅聊对比学习(Contrastive Learning)第一弹
PaperWeekly
0+阅读 · 2022年6月10日
DeepMind开源最牛无监督学习BigBiGAN预训练模型
新智元
10+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
用CNN分100,000类图像
极市平台
17+阅读 · 2018年1月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员