摘要

在只有很少数据的情况下,如分类问题中的新类别或输入中的域变换,现代视觉系统的性能会急剧下降。在这项工作中,我们说明了支撑现代视觉系统的神经网络表征如何受到监督崩塌的影响,从而丢失了执行训练任务所不需要的任何信息,包括迁移到新任务或领域所需要的信息。然后我们提出了两种方法来缓解这一问题。首先,我们采用自监督学习来鼓励能够更好地迁移的通用特性。第二,我们提出一种新颖的基于Transformer的神经网络结构称为CrossTransformers,这可能需要少量的标记图像和一个无标签查询,发现粗空间对应查询和标签之间的图像,然后通过计算相应空间之间的距离特性推断相似类别的样本。结果是一个分类器在任务和领域迁移方面更加具有鲁棒性,我们通过在Meta-Dataset上的最先进的性能来证明这一点,Meta-Dataset是一个最近的数据集,用于评估从ImageNet到许多其他视觉数据集的迁移。

介绍

通用视觉系统必须具有适应性。比如家庭机器人必须能够在新的、看不见的家庭中操作;照片组织软件必须能够识别看不见的物体(例如,寻找我六年级儿子的抽象艺术作品的样本);工业质量保证体系必须发现新产品中的缺陷。深度神经网络表示可以从像ImageNet这样的数据集中带来一些视觉知识,用于ImageNet之外的不同任务,但从经验上讲,这需要在新任务中使用大量的标记数据。如果标签数据太少,或者在分布上有大的变化,这样的系统在实际上会表现很差。元学习研究直接衡量适应性。在训练时,算法会收到大量的数据和伴随的监督(如标签)。然而,在测试时,算法会接收到一系列的片段,每个片段都由一小部分数据点组成,这些数据点来自不同于训练集的分布(例如,不同的域或不同的类别)。只有这些数据的一个子集有伴随的监督(称为支持集);算法必须对其余部分(查询集)进行预测。元数据集尤其与视觉相关,因为它的挑战是小样本细粒度图像分类。训练数据是ImageNet类的子集。在测试时,每一集都包含来自其他ImageNet类的图像,或者来自其他九个细粒度识别数据集之一的图像。算法必须快速调整其表示以适应新的类别和域。 简单的基于中心的算法,如Prototypical Nets在Meta-Dataset方面处于或接近最先进的水平,并且在支持集的外置ImageNet类上可以达到大约50%的精度(概率大约是1 / 20)。在同样的挑战下,在这些外面的类上训练等价的分类器可以达到84%的准确率。是什么导致了性能上的巨大差异分布内样本和分布外样本?我们假设典型的网络,像大多数元学习算法一样,很少要求表示捕获训练集以外的任何东西。由于核心神经网络是为分类而设计的,它们倾向于这样做:只表示类别信息,而丢失可能在训练类别之外有用的信息。我们称这个问题为监督崩塌,并在图1中说明了这个问题。

我们的第一个贡献是探索用自我监督来克服监督崩塌。我们使用SimCLR学习嵌入,区分数据集中的每个图像,同时保持不变的转换(例如,裁剪和颜色转移),因此捕获的不仅仅是类别的信息。然而,与其将SimCLR视为一种辅助损失,不如将SimCLR重新定制为可以以同样的方式分类为训练插曲的插曲。我们的第二个贡献是提出一种被称为CrossTransformers的新架构,它将Transformer扩展到小样本的细粒度分类。我们的关键见解是,物体和场景通常由较小的部分组成,局部外观可能与训练时看到的相似。这方面的经典例子是出现在早期几篇关于视觉的论文中的半人马,其中人和马的部分组成了半人马。

CrossTransformers的操作持有这一观点(i)基于部分的局部比较,和(2)考虑空间对齐,让程序去比较与底层类无关的图像。更详细地说,首先使用Transformer中的注意力来构建查询集和支持集图像中的几何或功能部分之间的粗对齐。然后,给定这种对齐方式,计算相应局部特征之间的距离来指导分类。我们将演示这将改进未见类和域的泛化。

综上所述,我们在本文中的贡献是:(i)我们通过自监督技术提高了局部特征的鲁棒性,修改了最先进的SimCLR算法。(ii)我们提出了CrossTransformers,这是一种空间感知的网络架构,使用更多的局部特征进行小样本分类,从而改进了迁移。最后,(iii)我们评估和分析了这些算法的选择如何影响Meta-Dataset集的性能,并在其中几乎每一个数据集上展示最先进的结果。

成为VIP会员查看完整内容
38

相关内容

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
176+阅读 · 2020年5月29日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
基于深度神经网络的少样本学习综述
专知会员服务
163+阅读 · 2020年4月22日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
35+阅读 · 2020年2月27日
ICCV2019|基于全局类别表征的小样本学习
极市平台
11+阅读 · 2019年9月21日
【紫冬新作】人脸识别新突破:真实场景下的大规模双样本学习方法
中国科学院自动化研究所
10+阅读 · 2019年3月7日
Meta-Learning 元学习:学会快速学习
极市平台
74+阅读 · 2018年12月19日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
13+阅读 · 2019年1月26日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
7+阅读 · 2018年12月6日
Arxiv
10+阅读 · 2017年12月29日
VIP会员
相关VIP内容
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
176+阅读 · 2020年5月29日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
基于深度神经网络的少样本学习综述
专知会员服务
163+阅读 · 2020年4月22日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
35+阅读 · 2020年2月27日
相关论文
微信扫码咨询专知VIP会员