深度学习在各个领域的显著成功依赖于大规模注释数据集的可用性。然而,使用人工生成的注释会导致模型有偏差学习、领域泛化能力差和鲁棒性差。获取注释也很昂贵,需要付出很大的努力,这对视频来说尤其具有挑战性。作为另一种选择,自监督学习提供了一种不需要注释的表示学习方法,在图像和视频领域都显示出了前景。与图像域不同,学习视频表示更具有挑战性,因为时间维度,引入了运动和其他环境动力学。这也为在视频和多模态领域推进自监督学习的独家想法提供了机会**。在这项综述中,我们提供了一个现有的方法在视频领域的自监督学习重点。**我们根据它们的学习目标将这些方法总结为三种不同的类别: 1) 文本预置任务,2) 生成式建模,和 3)对比学习。这些方法在使用的方式上也有所不同; 1) video, 2) video-audio, 3) video-text, 4) video-audio-text。我们进一步介绍了常用的数据集、下游评估任务、现有工作的局限性以及该领域未来的潜在方向。

对大规模标记样本的要求限制了深度网络在数据有限且标注困难的问题上的使用,例如医学成像Dargan et al. [2020]。虽然在ImageNet Krizhevsky等人[2012a]和Kinetics Kay等人[2017]的大规模标记数据集上进行预训练确实能提高性能,但这种方法存在一些缺陷,如注释成本Yang et al. [2017], Cai et al. [2021],注释偏差Chen和Joo [2021], Rodrigues和Pereira[2018],缺乏域泛化Wang等人[2021a], Hu等人[2020],Kim等人[2021],以及缺乏鲁棒性Hendrycks和Dietterich[2019]。Hendrycks等[2021]。自监督学习(SSL)已经成为预训练深度模型的一种成功方法,以克服其中一些问题。它是一种很有前途的替代方案,可以在大规模数据集上训练模型,而不需要标记Jing和Tian[2020],并且具有更好的泛化性。SSL使用一些来自训练样本本身的学习目标来训练模型。然后,这个预训练的模型被用作目标数据集的初始化,然后使用可用的标记样本对其进行微调。图1显示了这种方法的概览。

成为VIP会员查看完整内容
51

相关内容

基于模型的强化学习综述
专知会员服务
143+阅读 · 2022年7月13日
视觉识别的无监督域适应研究综述
专知会员服务
30+阅读 · 2021年12月17日
专知会员服务
63+阅读 · 2021年4月11日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
最新《神经数据压缩导论》综述
专知
4+阅读 · 2022年7月19日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
极市平台
3+阅读 · 2022年1月20日
再介绍一篇最新的Contrastive Self-supervised Learning综述论文
夕小瑶的卖萌屋
2+阅读 · 2021年9月22日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
38+阅读 · 2019年4月18日
迁移自适应学习最新综述,附21页论文下载
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
Arxiv
19+阅读 · 2022年7月29日
Transformers in Medical Image Analysis: A Review
Arxiv
39+阅读 · 2022年2月24日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
VIP会员
相关资讯
最新《神经数据压缩导论》综述
专知
4+阅读 · 2022年7月19日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
极市平台
3+阅读 · 2022年1月20日
再介绍一篇最新的Contrastive Self-supervised Learning综述论文
夕小瑶的卖萌屋
2+阅读 · 2021年9月22日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
38+阅读 · 2019年4月18日
迁移自适应学习最新综述,附21页论文下载
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
相关论文
Arxiv
19+阅读 · 2022年7月29日
Transformers in Medical Image Analysis: A Review
Arxiv
39+阅读 · 2022年2月24日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
微信扫码咨询专知VIP会员