Empirical science of neural scaling laws is a rapidly growing area of significant importance to the future of machine learning, particularly in the light of recent breakthroughs achieved by large-scale pre-trained models such as GPT-3, CLIP and DALL-e. Accurately predicting the neural network performance with increasing resources such as data, compute and model size provides a more comprehensive evaluation of different approaches across multiple scales, as opposed to traditional point-wise comparisons of fixed-size models on fixed-size benchmarks, and, most importantly, allows for focus on the best-scaling, and thus most promising in the future, approaches. In this work, we consider a challenging problem of few-shot learning in image classification, especially when the target data distribution in the few-shot phase is different from the source, training, data distribution, in a sense that it includes new image classes not encountered during training. Our current main goal is to investigate how the amount of pre-training data affects the few-shot generalization performance of standard image classifiers. Our key observations are that (1) such performance improvements are well-approximated by power laws (linear log-log plots) as the training set size increases, (2) this applies to both cases of target data coming from either the same or from a different domain (i.e., new classes) as the training data, and (3) few-shot performance on new classes converges at a faster rate than the standard classification performance on previously seen classes. Our findings shed new light on the relationship between scale and generalization.


翻译:神经缩放法的经验科学是一个迅速增长的领域,对机器学习的未来具有重要意义,特别是考虑到GPT-3、CLIP和DALL-e等大规模预先培训的大规模模型最近取得的突破。 精确预测神经网络的性能,利用诸如数据、计算和模型规模等越来越多的资源,对多种规模的不同方法进行更全面的评估,而不是对固定规模基准固定规模模型的传统点对点比较,最重要的是,能够注重最佳尺度的扩大,从而对未来最有希望的方法。在这项工作中,我们认为在图像分类方面少见的学习是一个具有挑战性的问题,特别是当几发阶段的目标数据分布与来源、培训、计算和模型规模不同时,它包括培训期间没有遇到的新图像课程。 我们目前的主要目标是调查培训前数据的数量如何影响标准图像分类的少数微小的概括性业绩。 我们的主要观察是:(1) 这样的业绩改进通过权力法的较轻等级、一般等级和新类别(线级)关系在新的水平上,从新的数据级别上,从新的数据级别上,从新的数据级别上,从新的水平上,从新的水平上,从新的水平上,从新的指标级,从新的数据级,从新的水平上,从新的数据级,从新的数据级,从新的程度,从新的分级级,从新的分级,从新的数据级,到不同的级,从新的数据级,从新的分级,从不同的级,从新的数据级,从新的分级,从新的数据级,到分级,到不同的级,从不同的级,从不同的级,从不同的级,从不同的级,从新的分级,到分级,从新的分级,到分级。

0
下载
关闭预览

相关内容

迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
7+阅读 · 2020年3月1日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
FIGR: Few-shot Image Generation with Reptile
Arxiv
5+阅读 · 2019年1月8日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员