Supervised image classification problems rely on training data assumed to have been correctly annotated; this assumption underpins most works in the field of deep learning. In consequence, during its training, a network is forced to match the label provided by the annotator and is not given the flexibility to choose an alternative to inconsistencies that it might be able to detect. Therefore, erroneously labeled training images may end up ``correctly'' classified in classes which they do not actually belong to. This may reduce the performances of the network and thus incite to build more complex networks without even checking the quality of the training data. In this work, we question the reliability of the annotated datasets. For that purpose, we introduce the notion of ghost loss, which can be seen as a regular loss that is zeroed out for some predicted values in a deterministic way and that allows the network to choose an alternative to the given label without being penalized. After a proof of concept experiment, we use the ghost loss principle to detect confusing images and erroneously labeled images in well-known training datasets (MNIST, Fashion-MNIST, SVHN, CIFAR10) and we provide a new tool, called sanity matrix, for summarizing these confusions.


翻译:受监督的图像分类问题依赖于假定正确附加说明的培训数据;这一假设是深层学习领域大多数工作的基础,因此,在培训期间,一个网络被迫与说明者提供的标签匹配,没有灵活性选择替代它可能检测到的不一致之处。因此,错误标签的培训图像最终可能“正确”被归类为他们实际上不属于的类别。这可能会降低网络的性能,从而煽动在甚至不检查培训数据质量的情况下建立更复杂的网络。在这项工作中,我们质疑附加说明数据集的可靠性。为此,我们引入了幽灵损失的概念,这可以被看作是一种定期损失,以决定性的方式为某些预测值零出,并允许网络在不受到处罚的情况下选择给定标签的替代品。在进行概念实验后,我们使用“幽灵损失”原则来检测混淆的图像和在众所周知的培训数据集中错误贴标签的图像(MNIST、Fashin-MINST、SVHN、CIFAR10),我们提供了一个新的数据库(MARIGMMMM),这些叫做SMAR10。

0
下载
关闭预览

相关内容

多标签学习的新趋势(2020 Survey)
专知会员服务
42+阅读 · 2020年12月6日
专知会员服务
40+阅读 · 2020年9月6日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
已删除
将门创投
5+阅读 · 2019年6月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Arxiv
0+阅读 · 2021年10月22日
Arxiv
9+阅读 · 2018年3月10日
VIP会员
相关VIP内容
多标签学习的新趋势(2020 Survey)
专知会员服务
42+阅读 · 2020年12月6日
专知会员服务
40+阅读 · 2020年9月6日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
5+阅读 · 2019年6月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Top
微信扫码咨询专知VIP会员