Semi-supervised learning based methods are current SOTA solutions to the noisy-label learning problem, which rely on learning an unsupervised label cleaner first to divide the training samples into a labeled set for clean data and an unlabeled set for noise data. Typically, the cleaner is obtained via fitting a mixture model to the distribution of per-sample training losses. However, the modeling procedure is \emph{class agnostic} and assumes the loss distributions of clean and noise samples are the same across different classes. Unfortunately, in practice, such an assumption does not always hold due to the varying learning difficulty of different classes, thus leading to sub-optimal label noise partition criteria. In this work, we reveal this long-ignored problem and propose a simple yet effective solution, named \textbf{C}lass \textbf{P}rototype-based label noise \textbf{C}leaner (\textbf{CPC}). Unlike previous works treating all the classes equally, CPC fully considers loss distribution heterogeneity and applies class-aware modulation to partition the clean and noise data. CPC takes advantage of loss distribution modeling and intra-class consistency regularization in feature space simultaneously and thus can better distinguish clean and noise labels. We theoretically justify the effectiveness of our method by explaining it from the Expectation-Maximization (EM) framework. Extensive experiments are conducted on the noisy-label benchmarks CIFAR-10, CIFAR-100, Clothing1M and WebVision. The results show that CPC consistently brings about performance improvement across all benchmarks. Codes and pre-trained models will be released at \url{https://github.com/hjjpku/CPC.git}.
翻译:以半监督的学习为基础的方法,是目前对噪音标签学习问题的SOTA 解决方案,它依靠的是学习一个不受监督的标签清洁剂,先将培训样本分成一个标签的清洁数据标本,再将噪音数据标本。一般而言,清洁剂是通过安装一个混合模型获得的,然后分配每个抽样的培训损失。然而,模型程序是\emph{类的分类 Agnnositi},并假定清洁和噪音样本在不同类别中的损失分布相同。不幸的是,在实践中,这种假设并不总是能够维持下去,因为不同类别不同的学习难度不同,因此导致低于最佳的标签噪声分配标准。在这项工作中,我们揭示了这一长期的标志问题,并提出了一个简单而有效的解决方案,名为\ textbf{P}P}roto 类型标签噪音的分布情况。但是,建模程序是 & textblickrb{C} 之前的标签( textbrickf{C}leanger) 。 与以往处理所有类别的工作不同, CP 完全考虑损失分布的高度遗传特性, 并且应用了分类- 度标签标签标签标签标签隔过隔隔隔隔隔的噪音标值 。马质标准的模型 将显示整个的清晰度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 标准 度 度 度 的稳定性 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度