题目: Self-Supervised Viewpoint Learning From Image Collections

简介:

训练深度神经网络以估计对象的视点需要标记大型训练数据集。但是,手动标记视点非常困难,容易出错且耗时。另一方面,从互联网(例如汽车或人脸)上挖掘许多未分类的物体类别图像相对容易。我们试图回答这样的研究问题:是否可以仅通过自我监督将这种未标记的野外图像集合成功地用于训练一般对象类别的视点估计网络。这里的自我监督是指网络具有的唯一真正的监督信号是输入图像本身。我们提出了一种新颖的学习框架,该框架结合了“综合分析”范式,利用生成网络以视点感知的方式重构图像,并具有对称性和对抗性约束,以成功地监督我们的视点估计网络。我们表明,对于人脸,汽车,公共汽车和火车等几个对象类别,我们的方法在完全监督方法上具有竞争性。我们的工作为自我监督的观点学习开辟了进一步的研究,并为其提供了坚实的基础。

成为VIP会员查看完整内容
0
20

相关内容

NVIDIA(全称NVIDIA Corporation,NASDAQ:NVDA,发音:IPA:/ɛnvɪdɪə/,台湾官方中文名为輝達),创立于1993年4月,是一家以设计显示芯片和芯片组为主的半导体公司。NVIDIA亦会设计游戏机核心,例如Xbox和PlayStation 3。NVIDIA最出名的产品线是为个人与游戏玩家所设计的GeForce系列,为专业工作站而设计的Quadro系列,以及为服务器和高效运算而设计的Tesla系列。 NVIDIA的总部设在美国加利福尼亚州的圣克拉拉。是一家无晶圆(Fabless)IC半导体设计公司。"NVIDIA"的读音与英文"video"相似,亦与西班牙文evidia(英文"envy")相似。现任总裁为黄仁勋。

自监督式VO方法在视频中联合估计摄像机姿态和深度方面取得了很大的成功。然而,与大多数数据驱动的方法一样,现有的VO网络在面对与训练数据不同的场景时,性能显著下降,不适合实际应用。在本文中,我们提出了一种在线元学习算法,使VO网络能够以一种自监督的方式不断适应新的环境。该方法利用卷积长短时记忆(convLSTM)来聚合过去的丰富时空信息。网络能够记忆和学习过去的经验,以便更好地估计和快速适应当前帧。在开放环境中运行VO时,为了应对环境的变化,我们提出了一种在线的特征对齐方法,即在不同的时刻对特征分布进行对齐。我们的VO网络能够无缝地适应不同的环境。在看不见的户外场景、虚拟到真实世界和户外到室内环境的大量实验表明,我们的方法始终比最先进的自监督的VO基线性能更好。

成为VIP会员查看完整内容
0
21

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
55

题目: Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

摘要: 图像级弱监督语义分割是近年来深入研究的一个具有挑战性的问题。大多数高级解决方案都利用类激活映射(CAM)。然而,由于监督的充分性和弱监督的差距,CAMs很难作为目标掩模。在这篇论文中,我们提出了一个自我监督的等变注意机制(SEAM)来发现额外的监督并缩小差距。我们的方法是基于等方差是完全监督语义分割的一个隐含约束,其像素级标签在数据扩充过程中与输入图像进行相同的空间变换。然而,这种约束在图像级监控训练的凸轮上丢失了。因此,我们提出了对不同变换图像的预测凸轮进行一致性正则化,为网络学习提供自监督。此外,我们提出了一个像素相关模块(PCM),它利用上下文外观信息,并改进当前像素的预测由其相似的邻居,从而进一步提高CAMs的一致性。在PASCAL VOC 2012数据集上进行的大量实验表明,我们的方法在同等监督水平下表现优于最先进的方法。

成为VIP会员查看完整内容
0
61

场景流估计在三维环境感知中越来越受到重视。单目场景流估计是一个高度不适定的问题,目前缺乏实用的解决方案。单目场景流估计是从两个时间上连续的图像中获取三维结构和三维运动。我们提出了一种新的单目场景流算法,该算法具有较强的精度和实时性。采用逆问题观点,我们设计了一个单独的卷积神经网络(CNN),它可以成功地从一个经典的光流成本体积同时估计深度和三维运动。我们采用带有三维损失函数和遮挡推理的自监督学习来利用未标记的数据。我们验证了我们的设计选择,包括代理丢失和增加设置。我们的模型在单目场景流的无监督/自监督学习方法中达到了最先进的精度,并在光流和单目深度估计子任务中获得了具有竞争力的结果。半监督微调进一步提高了精度,并在实时产生有希望的结果。

成为VIP会员查看完整内容
0
17

人工智能技术在医学影像领域的应用是医学研究的热点之一。然而,这一领域最近的成功主要依赖于大量仔细注释的数据,而对医学图像进行注释是一个昂贵的过程。在本文中,我们提出了一种新的方法,称为FocalMix,据我们所知,这是第一个利用半监督学习(SSL)的最新进展来进行3D医学图像检测的方法。我们对两个广泛应用的肺结节检测数据集LUNA16和NLST进行了广泛的实验。结果表明,与最先进的监督学习方法相比,我们提出的SSL方法可以通过400个未标记的CT扫描实现高达17.3%的实质性改进。

成为VIP会员查看完整内容
0
49

题目: Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

简介:

尽管最近几年人脸旋转取得了快速进展,但是缺乏高质量的训练数据仍然是现有方法的一大障碍。当前的生成模型严重依赖于具有同一人的多视图图像的数据集。因此,它们的生成结果受到数据源的规模和范围的限制。为了克服这些挑战,我们提出了一种新颖的无监督框架,该框架可以仅使用野外的单视图图像集来合成逼真的旋转面部。我们主要在于,在3D空间中来回旋转面并将其重新渲染到2D平面可以充当强大的自我监督。我们利用3D人脸建模和高分辨率GAN的最新进展来构成我们的构建块。由于可以在不损失细节的情况下将3D旋转和面部渲染应用到任意角度,因此我们的方法非常适用于现有方法不足的野外场景(即没有可用的配对数据)。广泛的实验表明,与广泛使用的姿势和领域相比,我们的方法具有比最先进的方法更好的合成质量和身份保留功能。此外,我们验证了旋转和渲染框架自然可以充当有效的数据增强引擎,即使在强大的基线模型上也可增强现代人脸识别系统.

成为VIP会员查看完整内容
0
19

主题: Learning Video Object Segmentation from Unlabeled Videos

摘要:

我们提出了一种新的视频对象分割方法(VOS),解决了从未标记的视频中学习对象模式的问题,而现有的方法大多依赖于大量的带注释的数据。我们引入了一个统一的无监督/弱监督学习框架,称为MuG,它全面地捕捉了VOS在多个粒度上的内在特性。我们的方法可以帮助提高对VOS中可视模式的理解,并显著减少注释负担。经过精心设计的体系结构和强大的表示学习能力,我们的学习模型可以应用于各种VOS设置,包括对象级零镜头VOS、实例级零镜头VOS和单镜头VOS。实验表明,在这些设置下,有良好的性能,以及利用无标记数据进一步提高分割精度的潜力。

成为VIP会员查看完整内容
0
29

题目: Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey

摘要: 为了在计算机视觉应用中从图像或视频中获得更好的视觉特征学习性能,通常需要大规模的标记数据来训练深度神经网络。为了避免大规模数据集收集和标注的大量开销,作为无监督学习方法的一个子集,提出了一种自监督学习方法,在不使用任何人类标注的标签的情况下,从大规模无标记数据中学习图像和视频的一般特征。本文对基于深度学习的自监督一般视觉特征学习方法进行了广泛的综述。首先,描述了该领域的动机、通用管道和术语。在此基础上,总结了常用的用于自监督学习的深度神经网络体系结构。接下来,回顾了自监督学习方法的模式和评价指标,然后介绍了常用的图像和视频数据集以及现有的自监督视觉特征学习方法。最后,总结和讨论了基于基准数据集的定量性能比较方法在图像和视频特征学习中的应用。最后,对本文的研究进行了总结,并提出了一套具有发展前景的自监督视觉特征学习方法。

成为VIP会员查看完整内容
0
74

简介: 在许多将数据表示为图形的领域中,学习图形之间的相似性度量标准被认为是一个关键问题,它可以进一步促进各种学习任务,例如分类,聚类和相似性搜索。 最近,人们对深度图相似性学习越来越感兴趣,其中的主要思想是学习一种深度学习模型,该模型将输入图映射到目标空间,以使目标空间中的距离近似于输入空间中的结构距离。 在这里,我们提供对深度图相似性学习的现有文献的全面回顾。 我们为方法和应用提出了系统的分类法。 最后,我们讨论该问题的挑战和未来方向。

在特征空间上学习足够的相似性度量可以显着确定机器学习方法的性能。从数据自动学习此类度量是相似性学习的主要目的。相似度/度量学习是指学习一种功能以测量对象之间的距离或相似度,这是许多机器学习问题(例如分类,聚类,排名等)中的关键步骤。例如,在k最近邻(kNN)中分类[25],需要一个度量来测量数据点之间的距离并识别最近的邻居;在许多聚类算法中,数据点之间的相似性度量用于确定聚类。尽管有一些通用度量标准(例如欧几里得距离)可用于获取表示为矢量的对象之间的相似性度量,但是这些度量标准通常无法捕获正在研究的数据的特定特征,尤其是对于结构化数据。因此,找到或学习一种度量以测量特定任务中涉及的数据点的相似性至关重要。

成为VIP会员查看完整内容
0
81
小贴士
相关VIP内容
专知会员服务
55+阅读 · 2020年4月24日
相关论文
Self-Supervised Learning For Few-Shot Image Classification
Da Chen,Yuefeng Chen,Yuhong Li,Feng Mao,Yuan He,Hui Xue
13+阅读 · 2019年11月14日
Learning Discriminative Model Prediction for Tracking
Goutam Bhat,Martin Danelljan,Luc Van Gool,Radu Timofte
6+阅读 · 2019年4月15日
Rethinking Knowledge Graph Propagation for Zero-Shot Learning
Michael Kampffmeyer,Yinbo Chen,Xiaodan Liang,Hao Wang,Yujia Zhang,Eric P. Xing
20+阅读 · 2019年3月27日
Few Shot Learning with Simplex
Bowen Zhang,Xifan Zhang,Fan Cheng,Deli Zhao
4+阅读 · 2018年7月27日
Compositional GAN: Learning Conditional Image Composition
Samaneh Azadi,Deepak Pathak,Sayna Ebrahimi,Trevor Darrell
30+阅读 · 2018年7月19日
Wenbin Li,Jing Huo,Yinghuan Shi,Yang Gao,Lei Wang,Jiebo Luo
8+阅读 · 2018年5月15日
Yu-An Chung,Hung-Yi Lee,James Glass
4+阅读 · 2018年4月21日
Nils Bore,Patric Jensfelt,John Folkesson
6+阅读 · 2018年1月28日
Top
微信扫码咨询专知VIP会员