题目: Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey
摘要: 为了在计算机视觉应用中从图像或视频中获得更好的视觉特征学习性能,通常需要大规模的标记数据来训练深度神经网络。为了避免大规模数据集收集和标注的大量开销,作为无监督学习方法的一个子集,提出了一种自监督学习方法,在不使用任何人类标注的标签的情况下,从大规模无标记数据中学习图像和视频的一般特征。本文对基于深度学习的自监督一般视觉特征学习方法进行了广泛的综述。首先,描述了该领域的动机、通用管道和术语。在此基础上,总结了常用的用于自监督学习的深度神经网络体系结构。接下来,回顾了自监督学习方法的模式和评价指标,然后介绍了常用的图像和视频数据集以及现有的自监督视觉特征学习方法。最后,总结和讨论了基于基准数据集的定量性能比较方法在图像和视频特征学习中的应用。最后,对本文的研究进行了总结,并提出了一套具有发展前景的自监督视觉特征学习方法。