High-quality labeled datasets play a crucial role in fueling the development of machine learning (ML), and in particular the development of deep learning (DL). However, since the emergence of the ImageNet dataset and the AlexNet model in 2012, the size of new open-source labeled vision datasets has remained roughly constant. Consequently, only a minority of publications in the computer vision community tackle supervised learning on datasets that are orders of magnitude larger than Imagenet. In this paper, we survey computer vision research domains that study the effects of such large datasets on model performance across different vision tasks. We summarize the community's current understanding of those effects, and highlight some open questions related to training with massive datasets. In particular, we tackle: (a) The largest datasets currently used in computer vision research and the interesting takeaways from training on such datasets; (b) The effectiveness of pre-training on large datasets; (c) Recent advancements and hurdles facing synthetic datasets; (d) An overview of double descent and sample non-monotonicity phenomena; and finally, (e) A brief discussion of lifelong/continual learning and how it fares compared to learning from huge labeled datasets in an offline setting. Overall, our findings are that research on optimization for deep learning focuses on perfecting the training routine and thus making DL models less data hungry, while research on synthetic datasets aims to offset the cost of data labeling. However, for the time being, acquiring non-synthetic labeled data remains indispensable to boost performance.


翻译:高品质的标签数据集在推动机器学习(ML),特别是深层次学习(DL)的开发方面发挥着关键作用。然而,自2012年出现图像网络数据集和亚历克斯Net模型以来,新的开放源代码标签的视觉数据集的规模仍然大致稳定。因此,计算机视觉界只有少数出版物处理监督地学习规模大于图像网的数据集的问题。在本文中,我们调查了研究这种大型数据集对不同愿景任务模型性能的影响的计算机愿景研究领域。我们总结了社区目前对这些影响的了解,并着重指出了与大规模数据集培训有关的一些开放问题。特别是,我们处理了:(a)目前在计算机视觉研究中使用的最大公开源标签的视觉数据集的规模和从这类数据集培训中获得的有趣收获;(b)大型数据集培训前的效力。 (c) 合成数据集面临的最新进展和障碍;(d) 抵消了双重来源和抽样非感知性现象的概览;以及最后,我们处理的是:(a) 目前计算机视觉研究中使用的最大数据集,从而进行长期性能学习。

0
下载
关闭预览

相关内容

数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
42+阅读 · 2020年7月27日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
62+阅读 · 2020年2月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
16+阅读 · 2021年7月18日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
27+阅读 · 2020年12月24日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
相关论文
Arxiv
16+阅读 · 2021年7月18日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
27+阅读 · 2020年12月24日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
7+阅读 · 2018年6月8日
Top
微信扫码咨询专知VIP会员