Noisy labels are commonly found in real-world data, which cause performance degradation of deep neural networks. Cleaning data manually is labour-intensive and time-consuming. Previous research mostly focuses on enhancing classification models against noisy labels, while the robustness of deep metric learning (DML) against noisy labels remains less well-explored. In this paper, we bridge this important gap by proposing Probabilistic Ranking-based Instance Selection with Memory (PRISM) approach for DML. PRISM calculates the probability of a label being clean, and filters out potentially noisy samples. Specifically, we propose three methods to calculate this probability: 1) Average Similarity Method (AvgSim), which calculates the average similarity between potentially noisy data and clean data; 2) Proxy Similarity Method (ProxySim), which replaces the centers maintained by AvgSim with the proxies trained by proxy-based method; and 3) von Mises-Fisher Distribution Similarity (vMF-Sim), which estimates a von Mises-Fisher distribution for each data class. With such a design, the proposed approach can deal with challenging DML situations in which the majority of the samples are noisy. Extensive experiments on both synthetic and real-world noisy dataset show that the proposed approach achieves up to 8.37% higher Precision@1 compared with the best performing state-of-the-art baseline approaches, within reasonable training time.


翻译:在现实世界数据中通常会发现噪音标签,这导致深神经网络的性能退化。人工清洗数据是劳动密集型和耗时的。以往的研究主要侧重于加强针对噪音标签的分类模型,而针对噪音标签的深度衡量学习(DML)的稳健性仍然不太受到很好探讨。在本文中,我们通过提议DML(PRISM)采用基于记忆(PRISM)的概率分级选择程序(PRISM)方法来弥补这一重要差距。 PRISM计算标签清洁的可能性,并过滤可能很吵的样本。具体地说,我们提出了三种方法来计算这一概率:(1) 平均相似性方法(AvgSim),该方法计算出潜在噪音数据与清洁数据之间的平均相似性模式;(2) 代之为AvgSim(ProxySim)所维持的中心,代之以代之以代用基于代用方法(PRISMM)的准度;(3) von Mis-Fis-Fisher 分布相似性(VMF-Sim),该方法估算出每类数据流出一个可能很吵的样本分布。我们提出了三种方法来计算这一方法来计算这一方法。我们提出了每类数据测测测测算出每类数据分布的频率的分布的分布的分布的分布的分布。在这种方法,在这种方法在设计中,在最高级的模型中,在最高级的模型中,在最高级的模型中,在设计和最高级方法在最高级的模型中,在最高级的模型中,在最高级的模拟式的模型中,在最高级的模拟的模拟的模拟的模拟的模拟的模拟的模拟的模拟的模拟的模拟的模拟的模拟的模拟的模拟的模拟方法与最接近性方法与最接近性方法在最接近性方法与最接近性方法在进行。

0
下载
关闭预览

相关内容

度量学习的目的为了衡量样本之间的相近程度,而这也正是模式识别的核心问题之一。大量的机器学习方法,比如K近邻、支持向量机、径向基函数网络等分类方法以及K-means聚类方法,还有一些基于图的方法,其性能好坏都主要有样本之间的相似度量方法的选择决定。 度量学习通常的目标是使同类样本之间的距离尽可能缩小,不同类样本之间的距离尽可能放大。
专知会员服务
28+阅读 · 2021年8月2日
专知会员服务
31+阅读 · 2021年6月12日
【图与几何深度学习】Graph and geometric deep learning,49页ppt
最新《几何深度学习》教程,100页ppt,Geometric Deep Learning
专知会员服务
100+阅读 · 2020年7月16日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
经典回顾 | Collaborative Metric Learning
机器学习与推荐算法
6+阅读 · 2020年9月18日
已删除
inpluslab
8+阅读 · 2019年10月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
13+阅读 · 2019年1月26日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
17+阅读 · 2018年4月2日
VIP会员
相关VIP内容
相关资讯
经典回顾 | Collaborative Metric Learning
机器学习与推荐算法
6+阅读 · 2020年9月18日
已删除
inpluslab
8+阅读 · 2019年10月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员