Deep neural networks (DNNs) offer a means of addressing the challenging task of clustering high-dimensional data. DNNs can extract useful features, and so produce a lower dimensional representation, which is more amenable to clustering techniques. As clustering is typically performed in a purely unsupervised setting, where no training labels are available, the question then arises as to how the DNN feature extractor can be trained. The most accurate existing approaches combine the training of the DNN with the clustering objective, so that information from the clustering process can be used to update the DNN to produce better features for clustering. One problem with this approach is that these ``pseudo-labels'' produced by the clustering algorithm are noisy, and any errors that they contain will hurt the training of the DNN. In this paper, we propose selective pseudo-label clustering, which uses only the most confident pseudo-labels for training the~DNN. We formally prove the performance gains under certain conditions. Applied to the task of image clustering, the new approach achieves a state-of-the-art performance on three popular image datasets. Code is available at https://github.com/Lou1sM/clustering.


翻译:深心神经网络( DNN) 提供了应对高维数据集集这一艰巨任务的手段。 DNN 能够提取有用的功能,从而产生更适合集束技术的较低维度的表达方式。 由于集束通常在完全无人监督的环境中进行,没有培训标签,因此产生了如何培训 DNN 特征提取器的问题。 最准确的现有方法将DNN 培训与集束目标结合起来, 使集成过程的信息能够用来更新 DNN, 从而产生更好的集束特性。 这种方法的一个问题是, 由集束算法制作的这些“ pseudo- lables” 是一个噪音问题, 以及它们中包含的任何错误将损害 DNN 的培训。 在本文中, 我们提出选择性的假标签组合, 仅使用最自信的假标签来培训 ~ DNNN。 我们正式证明在某些条件下的绩效收益。 用于图像集集成的任务, 新的方法在三种流行的图像集图像数据集上实现状态- 。

1
下载
关闭预览

相关内容

专知会员服务
88+阅读 · 2021年6月29日
专知会员服务
29+阅读 · 2021年4月5日
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
已删除
将门创投
18+阅读 · 2019年2月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
0+阅读 · 2021年9月22日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
3+阅读 · 2020年2月5日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
VIP会员
相关VIP内容
专知会员服务
88+阅读 · 2021年6月29日
专知会员服务
29+阅读 · 2021年4月5日
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关论文
Arxiv
0+阅读 · 2021年9月22日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
3+阅读 · 2020年2月5日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Top
微信扫码咨询专知VIP会员