【导读】Yann Lecun在纽约大学开设的2020春季《深度学习》课程,干货满满。最新的一期是来自Facebook AI的研究科学家Ishan Misra讲述了计算机视觉中的自监督学习最新进展,108页ppt,很不错报告。
在过去的十年中,许多不同的计算机视觉问题的主要成功方法之一是通过对ImageNet分类进行监督学习来学习视觉表示。并且,使用这些学习的表示,或学习的模型权值作为其他计算机视觉任务的初始化,在这些任务中可能没有大量的标记数据。
但是,为ImageNet大小的数据集获取注释是非常耗时和昂贵的。例如:ImageNet标记1400万张图片需要大约22年的人类时间。
因此,社区开始寻找替代的标记过程,如社交媒体图像的hashtags、GPS定位或自我监督方法,其中标签是数据样本本身的属性。
什么是自监督学习?
定义自我监督学习的两种方式:
基础监督学习的定义,即网络遵循监督学习,标签以半自动化的方式获得,不需要人工输入。
预测问题,其中一部分数据是隐藏的,其余部分是可见的。因此,其目的要么是预测隐藏数据,要么是预测隐藏数据的某些性质。
自监督学习与监督学习和非监督学习的区别:
监督学习任务有预先定义的(通常是人为提供的)标签,
无监督学习只有数据样本,没有任何监督、标记或正确的输出。
自监督学习从给定数据样本的共现形式或数据样本本身的共现部分派生出其标签。
自然语言处理中的自监督学习
Word2Vec
给定一个输入句子,该任务涉及从该句子中预测一个缺失的单词,为了构建文本前的任务,该任务特意省略了该单词。
因此,这组标签变成了词汇表中所有可能的单词,而正确的标签是句子中省略的单词。
因此,可以使用常规的基于梯度的方法对网络进行训练,以学习单词级表示。
为什么自监督学习
自监督学习通过观察数据的不同部分如何交互来实现数据的学习表示。从而减少了对大量带注释数据的需求。此外,可以利用可能与单个数据样本相关联的多个模式。
计算机视觉中的自我监督学习
通常,使用自监督学习的计算机视觉管道涉及执行两个任务,一个前置任务和一个下游任务。
下游任务可以是任何类似分类或检测任务的任务,但是没有足够的带注释的数据样本。
Pre-text task是为学习视觉表象而解决的自监督学习任务,其目的是利用所学习的表象,或下游任务在过程中获得的模型权值。
发展Pre-text任务
针对计算机视觉问题的文本前任务可以使用图像、视频或视频和声音来开发。
在每个pre-text任务中,都有部分可见和部分隐藏的数据,而任务则是预测隐藏的数据或隐藏数据的某些属性。
下载链接: 链接: https://pan.baidu.com/s/1gNK4DzqtAMXyrD1fBFGa-w 提取码: ek7i