针对自监督学习的深度聚类是无监督视觉表示学习中一个非常重要和有前途的方向,因为设计前置任务需要较少的领域知识。而关键组件嵌入聚类由于需要保存整个数据集的全局潜在嵌入,限制了其扩展到超大规模的数据集。在这项工作中,我们的目标是使这个框架在不降低性能的情况下更加简单和优雅。提出了一种不使用嵌入聚类的无监督图像分类框架,与标准的监督训练方法非常相似。为了进一步解释,我们进一步分析了其与深度聚类和对比学习的关系。在ImageNet数据集上进行了大量的实验,验证了该方法的有效性。此外,在迁移学习基准上的实验验证了它对其他下游任务的推广,包括多标签图像分类、目标检测、语义分割和小样本图像分类。

地址:

https://arxiv.org/abs/2006.11480

成为VIP会员查看完整内容
0
61

相关内容

ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次,是计算机视觉三大会议(另外两个是ICCV和CVPR)之一。每次会议在全球范围录用论文300篇左右,主要的录用论文都来自美国、欧洲等顶尖实验室及研究所,中国大陆的论文数量一般在10-20篇之间。

领域适应(DA)提供了重用数据和模型用于新问题领域的有价值的方法。然而,对于具有不同数据可用性的时间序列数据,还没有考虑到健壮的技术。在本文中,我们做出了三个主要贡献来填补这一空白。我们提出了一种新的时间序列数据卷积深度域自适应模型(CoDATS),该模型在现实传感器数据基准上显著提高了最先进的DA策略的准确性和训练时间。通过利用来自多个源域的数据,我们增加了CoDATS的有用性,从而进一步提高了与以前的单源方法相比的准确性,特别是在域之间具有高度可变性的复杂时间序列数据集上。其次,我们提出了一种新的弱监督域自适应(DA-WS)方法,利用目标域标签分布形式的弱监督,这可能比其他数据标签更容易收集。第三,我们对不同的真实数据集进行了综合实验,以评估我们的域适应和弱监督方法的有效性。结果表明,用于单源DA的CoDATS比最先进的方法有了显著的改进,并且我们使用来自多个源域和弱监督信号的数据实现了额外的准确性改进。

成为VIP会员查看完整内容
0
18

本文针对深度卷积神经网络提出了一种常规的、易应用的变换单元,即Gated Channel Transformation (GCT) 模块。GCT结合了归一化方法和注意力机制,并使用轻量级的、易于分析的变量来隐式地学习网络通道间的相互关系。这些通道量级的变量可以直接影响神经元间的竞争或者合作行为,且能方便地与卷积网络本身的权重参数一同参与训练。通过引入归一化方法,GCT模块要远比SE-Nets的SE模块轻量,这使得将GCT部署在每个卷积层上而不让网络变得过于臃肿成为了可能。本文在多个大型数据集上针对数种基础视觉任务进行了充分的实验,即ImageNet数据集上的图片分类,COCO上的目标检测与实例分割,还有Kinetics上的视频分类。在这些视觉任务上,引入GCT模块均能带来明显的性能提升。这些大量的实验充分证明了GCT模块的有效性。

成为VIP会员查看完整内容
0
9

​【导读】图像分类是计算机视觉中的基本任务之一,深度学习的出现是的图像分类技术趋于完善。最近,自监督学习与预训练技术的发展使得图像分类技术出现新的变化,这篇论文概述了最新在实际情况中少标签小样本等情况下,关于自监督学习、半监督、无监督方法的综述,值得看!

地址:

https://www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

虽然深度学习策略在计算机视觉任务中取得了突出的成绩,但仍存在一个问题。目前的策略严重依赖于大量的标记数据。在许多实际问题中,创建这么多标记的训练数据是不可行的。因此,研究人员试图将未标记的数据纳入到培训过程中,以获得与较少标记相同的结果。由于有许多同时进行的研究,很难掌握最近的发展情况。在这项调查中,我们提供了一个概述,常用的技术和方法,在图像分类与较少的标签。我们比较了21种方法。在我们的分析中,我们确定了三个主要趋势。1. 基于它们的准确性,现有技术的方法可扩展到实际应用中。2. 为了达到与所有标签的使用相同的结果所需要的监督程度正在降低。3.所有方法都共享公共技术,只有少数方法结合这些技术以获得更好的性能。基于这三个趋势,我们发现了未来的研究机会。

1. 概述

深度学习策略在计算机视觉任务中取得了显著的成功。它们在图像分类、目标检测或语义分割等各种任务中表现最佳。

图1: 这张图说明并简化了在深度学习训练中使用未标记数据的好处。红色和深蓝色的圆圈表示不同类的标记数据点。浅灰色的圆圈表示未标记的数据点。如果我们只有少量的标记数据可用,我们只能对潜在的真实分布(黑线)做出假设(虚线)。只有同时考虑未标记的数据点并明确决策边界,才能确定这种真实分布。

深度神经网络的质量受到标记/监督图像数量的强烈影响。ImageNet[26]是一个巨大的标记数据集,它允许训练具有令人印象深刻的性能的网络。最近的研究表明,即使比ImageNet更大的数据集也可以改善这些结果。但是,在许多实际的应用程序中,不可能创建包含数百万张图像的标记数据集。处理这个问题的一个常见策略是迁移学习。这种策略甚至可以在小型和专门的数据集(如医学成像[40])上改进结果。虽然这对于某些应用程序来说可能是一个实际的解决方案,但基本问题仍然存在: 与人类不同,监督学习需要大量的标记数据。

对于给定的问题,我们通常可以访问大量未标记的数据集。Xie等人是最早研究无监督深度学习策略来利用这些数据[45]的人之一。从那时起,未标记数据的使用被以多种方式研究,并创造了研究领域,如半监督、自我监督、弱监督或度量学习[23]。统一这些方法的想法是,在训练过程中使用未标记的数据是有益的(参见图1中的说明)。它要么使很少有标签的训练更加健壮,要么在某些不常见的情况下甚至超过了监督情况下的性能[21]。

由于这一优势,许多研究人员和公司在半监督、自我监督和非监督学习领域工作。其主要目标是缩小半监督学习和监督学习之间的差距,甚至超越这些结果。考虑到现有的方法如[49,46],我们认为研究处于实现这一目标的转折点。因此,在这个领域有很多正在进行的研究。这项综述提供了一个概述,以跟踪最新的在半监督,自监督和非监督学习的方法。

大多数综述的研究主题在目标、应用上下文和实现细节方面存在差异,但它们共享各种相同的思想。这项调查对这一广泛的研究课题进行了概述。这次调查的重点是描述这两种方法的异同。此外,我们还将研究不同技术的组合。

2. 图像分类技术

在这一节中,我们总结了关于半监督、自监督和非监督学习的一般概念。我们通过自己对某些术语的定义和解释来扩展这一总结。重点在于区分可能的学习策略和最常见的实现策略的方法。在整个综述中,我们使用术语学习策略,技术和方法在一个特定的意义。学习策略是算法的一般类型/方法。我们把论文方法中提出的每个算法都称为独立算法。方法可以分为学习策略和技术。技术是组成方法/算法的部分或思想。

2.1 分类方法

监督、半监督和自我监督等术语在文献中经常使用。很少有人给出明确的定义来区分这两个术语。在大多数情况下,一个粗略的普遍共识的意义是充分的,但我们注意到,在边界情况下的定义是多种多样的。为了比较不同的方法,我们需要一个精确的定义来区分它们。我们将总结关于学习策略的共识,并定义我们如何看待某些边缘案例。一般来说,我们根据使用的标记数据的数量和训练过程监督的哪个阶段来区分方法。综上所述,我们把半监督策略、自我学习策略和无监督学习策略称为reduced减约监督学习策略。图2展示了四种深度学习策略。

图2: 插图的四个深学习策略——红色和深蓝色的圆圈表示标记数据点不同的类。浅灰色的圆圈表示未标记的数据点。黑线定义了类之间的基本决策边界。带条纹的圆圈表示在训练过程的不同阶段忽略和使用标签信息的数据点。

监督学习 Supervised Learning

监督学习是深度神经网络图像分类中最常用的方法。我们有一组图像X和对应的标签或类z。设C为类别数,f(X)为X∈X的某个神经网络的输出,目标是使输出与标签之间的损失函数最小化。测量f(x)和相应的z之间的差的一个常用的损失函数是交叉熵。

迁移学习

监督学习的一个限制因素是标签的可用性。创建这些标签可能很昂贵,因此限制了它们的数量。克服这一局限的一个方法是使用迁移学习。

迁移学习描述了训练神经网络的两个阶段的过程。第一个阶段是在大型通用数据集(如ImageNet[26])上进行有无监督的训练。第二步是使用经过训练的权重并对目标数据集进行微调。大量的文献表明,即使在小的领域特定数据集[40]上,迁移学习也能改善和稳定训练。

半监督学习

半监督学习是无监督学习和监督学习的混合.

Self-supervised 自监督学习

自监督使用一个借托pretext任务来学习未标记数据的表示。借托pretext任务是无监督的,但学习表征往往不能直接用于图像分类,必须进行微调。因此,自监督学习可以被解释为一种无监督的、半监督的或其自身的一种策略。我们将自我监督学习视为一种特殊的学习策略。在下面,我们将解释我们是如何得出这个结论的。如果在微调期间需要使用任何标签,则不能将该策略称为无监督的。这与半监督方法也有明显的区别。标签不能与未标记的数据同时使用,因为借托pretext任务是无监督的,只有微调才使用标签。对我们来说,将标记数据的使用分离成两个不同的子任务本身就是一种策略的特征。

2.2 分类技术集合

在减少监督的情况下,可以使用不同的技术来训练模型。在本节中,我们将介绍一些在文献中多种方法中使用的技术。

一致性正则化 Consistency regularization

一个主要的研究方向是一致性正则化。在半监督学习过程中,这些正则化被用作数据非监督部分的监督损失的附加损失。这种约束导致了改进的结果,因为在定义决策边界时可以考虑未标记的数据[42,28,49]。一些自监督或无监督的方法甚至更进一步,在训练中只使用这种一致性正则化[21,2]。

虚拟对抗性训练(VAT)

VAT[34]试图通过最小化图像与转换后的图像之间的距离,使预测不受小转换的影响。

互信息(MI)

MI定义为联合分布和边缘分布[8]之间的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通过最小化熵[15]来提高半监督学习的输出预测。

Overclustering

过度聚类在减少监督的情况下是有益的,因为神经网络可以自行决定如何分割数据。这种分离在有噪声的数据中或在中间类被随机分为相邻类的情况下是有用的。

Pseudo-Labels

一种估计未知数据标签的简单方法是伪标签

3. 图像分类模型

3.1 半监督学习

四种选择的半监督方法的图解——使用的方法在每张图像下面给出。输入在左边的蓝色方框中给出。在右侧提供了该方法的说明。一般来说,这个过程是自上而下组织的。首先,输入图像经过无或两个不同的随机变换预处理。自动增广[9]是一种特殊的增广技术。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的,但是共享公共部分。所有的方法都使用了标记和预测分布之间的交叉熵(CE)。所有的方法还使用了不同预测输出分布(Pf(x), Pf(y))之间的一致性正则化。

3.2 自监督学习

四种选择的自我监督方法的图解——使用的方法在每张图像下面给出。输入在左边的红色方框中给出。在右侧提供了该方法的说明。微调部分不包括在内。一般来说,这个过程是自上而下组织的。首先,对输入图像进行一两次随机变换预处理或分割。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的。AMDIM和CPC使用网络的内部元素来计算损失。DeepCluster和IIC使用预测的输出分布(Pf(x)、Pf(y))来计算损耗

3.3 21种图像分类方法比较

21种图像分类方法及其使用技术的概述——在左侧,第3节中回顾的方法按学习策略排序。第一行列出了在2.2小节中讨论过的可能的技术。根据是否可以使用带标签的数据,将这些技术分为无监督技术和有监督技术。技术的缩写也在第2.2小节中给出。交叉熵(Cross-entropy, CE)将CE的使用描述为训练损失的一部分。微调(FT)描述了交叉熵在初始训练后(例如在一个借口任务中)对新标签的使用。(X)指该技术不是直接使用,而是间接使用。个别的解释由所指示的数字给出。1 - MixMatch通过锐化预测[3],隐式地实现了熵最小化。2 - UDA预测用于过滤无监督数据的伪标签。3 -尽量减少相互信息的目的作为借口任务,例如视图之间的[2]或层之间的[17]。4 -信息的丢失使相互信息间接[43]最大化。5 - Deep Cluster使用K-Means计算伪标签,以优化分配为借口任务。6 - DAC使用元素之间的余弦距离来估计相似和不相似的项。可以说DAC为相似性问题创建了伪标签。

4. 实验比较结果

报告准确度的概述——第一列说明使用的方法。对于监督基线,我们使用了最好的报告结果,作为其他方法的基线。原始论文在准确度后的括号内。第二列给出了体系结构及其参考。第三列是预印本的出版年份或发行年份。最后四列报告了各自数据集的最高准确度分数%。

5 结论

在本文中,我们概述了半监督、自监督和非监督技术。我们用21种不同的方法分析了它们的异同和组合。这项分析确定了几个趋势和可能的研究领域。

我们分析了不同学习策略(半监督学习策略、自监督学习策略和无监督学习策略)的定义,以及这些学习策略中的常用技术。我们展示了这些方法一般是如何工作的,它们使用哪些技术,以及它们可以被归类为哪种策略。尽管由于不同的体系结构和实现而难以比较这些方法的性能,但我们确定了三个主要趋势。

ILSVRC-2012的前5名正确率超过90%,只有10%的标签表明半监督方法适用于现实问题。然而,像类别不平衡这样的问题并没有被考虑。未来的研究必须解决这些问题。

监督和半监督或自监督方法之间的性能差距正在缩小。有一个数据集甚至超过了30%。获得可与全监督学习相比的结果的标签数量正在减少。未来的研究可以进一步减少所需标签的数量。我们注意到,随着时间的推移,非监督方法的使用越来越少。这两个结论使我们认为,无监督方法在未来的现实世界中对图像分类将失去意义。

我们的结论是,半监督和自监督学习策略主要使用一套不同的技术。通常,这两种策略都使用不同技术的组合,但是这些技术中很少有重叠。S4L是目前提出的唯一一种消除这种分离的方法。我们确定了不同技术的组合有利于整体性能的趋势。结合技术之间的微小重叠,我们确定了未来可能的研究机会。

参考文献:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

成为VIP会员查看完整内容
0
138

题目

自监督图像分类:Self-training with Noisy Student improves ImageNet classification

关键字

图像分类,自监督学习,计算机视觉,深度学习,人工智能

简介

我们提出了一种简单的自我训练方法,该方法可在ImageNet上达到88.4%的top-1准确性,这比要求3.5B弱标记Instagram图像的最新模型高2.0%。在健壮性测试集上,它将ImageNet-A top-1的准确性从61.0%提高到83.7%,将ImageNet-C的平均损坏错误从45.7降低到28.3,并将ImageNet-P的平均翻转率从27.8降低到12.2。

为了获得此结果,我们首先在标记的ImageNet图像上训练EfficientNet模型,并将其用作教师,以在300M未标记的图像上生成伪标记。然后,我们将更大的EfficientNet训练为带有标记和伪标记图像组合的学生模型。我们通过让学生作为老师来迭代此过程。在伪标签的生成过程中,不会对教师产生干扰,从而使伪标签尽可能准确。但是,在学生学习期间,我们通过RandAugment向学生注入诸如辍学,随机深度和数据增强之类的噪声,从而使学生的普遍性优于老师。

作者

Qizhe Xie, Minh-Thang Luong, Eduard Hovy, Quoc V. Le

成为VIP会员查看完整内容
0
46

【导读】由于深度神经网络具有强大的学习不同层次视觉特征的能力,因此被广泛应用于目标检测,语义分割,图像描述等计算机视觉应用当中。从ImageNet这样的大型图像数据集中训练得到的模型被广泛地用作其他任务的预训练模型,主要有两个原因:(1)从大规模数据集中学习得到的参数能够为其他模型提供一个良好的训练起点,在其他任务上模型网络可以更快地收敛。(2)在大规模数据集上训练的网络已经学习到了层次特征,这有助于减少其他任务训练过程中的过拟合问题,特别是当其他任务的数据集较小或标注数据不足的情况。

介绍

为了在计算机视觉应用中学习得到更好的图像和视频特征,通常需要大规模的标记数据来训练深度神经网络。为了避免收集和标注大量的数据所需的巨大开销,作为无监督学习方法的一个子方法——自监督学习方法,可以在不使用任何人类标注的标签的情况下,从大规模无标记数据中学习图像和视频的一般性特征。本文对基于深度学习的自监督一般性视觉特征学习方法做了综述。首先,描述了该领域的动机和一些专业性术语。在此基础上,总结了常用的用于自监督学习的深度神经网络体系结构。接下来,回顾了自监督学习方法的模式和评价指标,并介绍了常用的图像和视频数据集以及现有的自监督视觉特征学习方法。最后,总结和讨论了基于标准数据集的性能比较方法在图像和视频特征学习中的应用。

用于图像特征学习的架构

1.AlexNet:与以往的方法相比,AlexNet极大的提高了在ImageNet数据集上的图像分类性能。AlexNet架构总共有8层,其中的5层是卷积层,3层是全连接层。ReLU激活函数被运用在每一个卷积层后面。

2.VGG:该模型赢得了ILSVRC2013挑战赛的第一名。其中的VGG-16由于模型尺寸适中,性能优越,被广泛使用。

3.ResNet:该网络阐述了网络越深越能够获得良好的性能。但是由于梯度消失和梯度爆炸,深度神经网络很难训练。ResNet使用跳跃连接把前一层的特征直接传递到下一个卷积块来克服梯度消失和梯度爆炸的问题。

4.GoogleNet:22层的深度网络,以93.3%的准确率赢得了ILSVRC-2014挑战赛。和之前的网络相比,它拥有更深的网络。GoogleNet的基础模块inception块由4个平行的卷积层组成,这4个卷积层的卷积核尺寸不同,每层后面都有一个1x1的卷积操作来降低维度。

5.DenseNet:大多数网络包括AlexNet, VGG和ResNet都遵循层次结构。图像被输入到网络中,由不同的层提取特征。浅层提取低级的一般性特征,而深层提取特定于任务的高级特征。然而,当一个网络变得越来越深的时候,更深的网络层可能会记住完成任务所需的底层特征。为了避免这一问题,DenseNet通过稠密连接将一个卷积块之前的所有特征作为输入输送到神经网络中的下一个卷积块。

视频特征学习架构

Spatiotemporal Convolutional Neural Network

三维卷积运算最早是在3DNet中提出的,用于人类行为识别。与2DConvNets分别提取每一帧的空间信息,然后将它们融合为视频特征相比,3DConvNets能够同时从多个帧中同时提取空间和时间特征。

随着三维卷积在视频分析任务中的成功应用,出现了3DConvNet的各种变体。比如Hara等人提出了3DResNet,将ResNet中所有的2D卷积层替换为3D卷积层。实验表明,在多个数据集上,3D卷积层的性能更为优异。

Recurrent Neural Network(RNN)

由于RNN能够对一个时间序列数据进行动态建模,所以RNN通常被应用于视频的有序帧序列当中。和标准的RNN相比,LSTM使用内存单元来存储,修改和访问内部状态,从而更好的对视频帧之间的长时间序列进行建模。基于LSTM的优势,Donahue提出了long-term recurrent convolutional networks (LRCN)用于人类行为识别。

数据集介绍

1.图像数据集

2.视频数据集

YFCC100M:该数据集是从Flicker上收集的多媒体数据集,由1亿条多媒体数据组成,其中的99200000条数据是图片,剩余的800000条数据是视频。

SceneNet RGB-D:该数据集是一个大型的室内视频合成数据集。

Moment in Time:该数据集是一个用于视频内容理解的数据集,内容多样且分布均衡。

Kinetics:该数据集规模大,质量高,用于人类行为识别。

AudioSet:该数据集由来自YouTube的2084320条人工标记10秒的声音剪辑组成,这些视频涵盖了632个音频事件。

KITTI:该数据集是在驾驶汽车时收集的,收集数据时的装备有各种传感器,包括高分辨率RGB相机、灰度立体声相机、3D激光扫描仪和高精度GPS测量。

UCF101:该数据集被广泛使用于人类动作识别。

HMDB51:相比于前面的数据集,该数据集是一个小规模的视频数据集,用于人流动作识别。

成为VIP会员查看完整内容
0
53
小贴士
相关论文
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
Jianhong Zhang,Manli Zhang,Zhiwu Lu,Tao Xiang,Jirong Wen
4+阅读 · 2020年3月9日
Object-Contextual Representations for Semantic Segmentation
Yuhui Yuan,Xilin Chen,Jingdong Wang
6+阅读 · 2019年11月19日
Wentong Liao,Cuiling Lan,Wenjun Zeng,Michael Ying Yang,Bodo Rosenhahn
3+阅读 · 2019年4月3日
Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,Serge Belongie
12+阅读 · 2019年1月16日
Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning
Baoyuan Wu,Weidong Chen,Yanbo Fan,Yong Zhang,Jinlong Hou,Junzhou Huang,Wei Liu,Tong Zhang
8+阅读 · 2019年1月7日
Explanatory Graphs for CNNs
Quanshi Zhang,Xin Wang,Ruiming Cao,Ying Nian Wu,Feng Shi,Song-Chun Zhu
4+阅读 · 2018年12月18日
Acquisition of Localization Confidence for Accurate Object Detection
Borui Jiang,Ruixuan Luo,Jiayuan Mao,Tete Xiao,Yuning Jiang
4+阅读 · 2018年7月30日
Tim Dettmers,Pasquale Minervini,Pontus Stenetorp,Sebastian Riedel
27+阅读 · 2018年4月6日
Xiaolong Wang,Yufei Ye,Abhinav Gupta
5+阅读 · 2018年3月21日
Quanshi Zhang,Ruiming Cao,Feng Shi,Ying Nian Wu,Song-Chun Zhu
8+阅读 · 2017年11月22日
Top
微信扫码咨询专知VIP会员