【AAAI2021】对比聚类,Contrastive Clustering

2021 年 1 月 30 日 专知

背景:现有的大部分深度聚类(Deep Clustering)算法需要迭代进行表示学习和聚类这两个过程,利用聚类结果来优化表示,再对更优的表示进行聚类,此类方法主要存在以下两个缺陷,一是迭代优化的过程中容易出现误差累计,二是聚类过程通常采用k-means等需要全局相似性信息的算法,使得需要数据全部准备好后才能进行聚类,故面临不能处理在线数据的局限性。针对上述问题,本文提出了一种基于对比学习的聚类算法,其同时进行表示学习和聚类分析,且能实现流式数据的聚类。

方法:本文基于“标签即表示”的思想[2],将聚类任务统一到表示学习框架下,对每个样本学习其聚类软标签作为特征表示。具体地,我们在国际上首次揭示数据特征矩阵的行和列事实上分别对应实例类别的表示(图1)。也即,特征矩阵的列是一种特殊的类别表示,其对应某一实例属于某一类别的概率。基于该洞见,本文提出同时在特征矩阵的行空间与列空间,即实例级别和类别级别,进行对比学习即可进行聚类。

                  

特征矩阵的行、列空间分别对应实例和类别的表示,可在其中分别进行实例和类别级别的表示学习来进行聚类

 

我们的方法如图2所示,首先利用数据增广构造用于对比学习的正负样本对,通过骨干网络提取特征,并分别投影到行、列空间进行实例和类别级别的对比学习。训练完成后,通过直接计算各个样本的软标签,取最大概率的类别作为预测结果即可实现聚类。显然,该方法适用于大规模在线的数据,因为其将聚类过程转化为表示学习过程。

创新:一方面,从聚类的角度,受益于“标签即表示”及“列空间对应类别表示空间”的洞见,本文提出的方法无需所有数据输入后才能进行聚类,而是采用在线的方式实时对当前数据进行聚类隶属预测,适用于大规模在线场景和流式数据处理。大量实验表明,提出的方法在CIFAR10CIFAR100等数据集上比当时最优聚类算法提升精度30%以上。另一方面,从对比学习角度,该工作是最早的面向任务的对比学习方法,而不再是流行的任务无关无监督表示学习范式。此外,本文提出的算法也可认为是一种新的引入聚类性质从而增强表示学习能力的对比学习方法,为对比学习研究领域引入新的洞见。本文的整个idea非常优雅、简洁及自洽。相对于最新的SimCLR等对比学习算法,本文提出的算法仅需在考虑数据特征行空间对比学习的同时再考虑列空间的对比学习即可。

 

网络结构

 

结果:为验证方法的有效性,我们在6个常用图片数据集上对比了17种代表性的聚类算法(图3)。实验结果表明,本文提出的方法在3个通用聚类指标NMI(标准化互信息),ACC(准确率),ARI(调兰德指数)上均取得了最优。特别地,本方法在CIFAR-10数据集上相比当前最优方法取得了39%NMI提升,在CIFAR-100Tiny-ImageNet数据集上相比当前方法取得了超过50%ARI提升,充分验证了本方法的有效性。

实验结果


https://www.zhuanzhi.ai/paper/a039c5d3a74350accaa6676994c0adbb

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CC2021” 可以获取【AAAI2021】对比聚类,Contrastive Clustering专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
24

相关内容

【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
AAAI2021 | 学习预训练图神经网络
专知会员服务
114+阅读 · 2021年1月28日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
20+阅读 · 2021年1月27日
专知会员服务
40+阅读 · 2021年1月9日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
77+阅读 · 2020年6月11日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
30+阅读 · 2020年4月23日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
论文浅尝 | 使用变分推理做KBQA
开放知识图谱
12+阅读 · 2018年4月15日
图上的归纳表示学习
科技创新与创业
22+阅读 · 2017年11月9日
结合弱监督信息的凸聚类
计算机研究与发展
6+阅读 · 2017年8月30日
基于聚类和决策树的链路预测方法
计算机研究与发展
8+阅读 · 2017年8月25日
Arxiv
7+阅读 · 2020年10月9日
Arxiv
31+阅读 · 2020年9月21日
VIP会员
相关VIP内容
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
AAAI2021 | 学习预训练图神经网络
专知会员服务
114+阅读 · 2021年1月28日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
20+阅读 · 2021年1月27日
专知会员服务
40+阅读 · 2021年1月9日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
77+阅读 · 2020年6月11日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
30+阅读 · 2020年4月23日
相关资讯
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
论文浅尝 | 使用变分推理做KBQA
开放知识图谱
12+阅读 · 2018年4月15日
图上的归纳表示学习
科技创新与创业
22+阅读 · 2017年11月9日
结合弱监督信息的凸聚类
计算机研究与发展
6+阅读 · 2017年8月30日
基于聚类和决策树的链路预测方法
计算机研究与发展
8+阅读 · 2017年8月25日
Top
微信扫码咨询专知VIP会员