We present a combined scaling method - named BASIC - that achieves 85.7% top-1 accuracy on the ImageNet ILSVRC-2012 validation set without learning from any labeled ImageNet example. This accuracy surpasses best published similar models - CLIP and ALIGN - by 9.3%. Our BASIC model also shows significant improvements in robustness benchmarks. For instance, on 5 test sets with natural distribution shifts such as ImageNet-{A,R,V2,Sketch} and ObjectNet, our model achieves 84.3% top-1 average accuracy, only a small drop from its original ImageNet accuracy. To achieve these results, we scale up the contrastive learning framework of CLIP and ALIGN in three dimensions: data size, model size, and batch size. Our dataset has 6.6B noisy image-text pairs, which is 4x larger than ALIGN, and 16x larger than CLIP. Our largest model has 3B weights, which is 3.75x larger in parameters and 8x larger in FLOPs than ALIGN and CLIP. Finally, our batch size is 65536 which is 2x more than CLIP and 4x more than ALIGN. We encountered two main challenges with the scaling rules of BASIC. First, the main challenge with implementing the combined scaling rules of BASIC is the limited memory of accelerators, such as GPUs and TPUs. To overcome the memory limit, we propose two simple methods which make use of gradient checkpointing and model parallelism. Second, while increasing the dataset size and the model size has been the defacto method to improve the performance of deep learning models like BASIC, the effect of a large contrastive batch size on such contrastive-trained image-text models is not well-understood. To shed light on the benefits of large contrastive batch sizes, we develop a theoretical framework which shows that larger contrastive batch sizes lead to smaller generalization gaps for image-text models such as BASIC.


翻译:我们提出了一种称为 BASIC 的组合缩放方法,它在不学习任何带标签的 ImageNet 样例的情况下,在 ImageNet ILSVRC-2012 验证集上实现了 85.7% 的 top-1 准确率。这个准确率比已发表的类似模型 CLIP 和 ALIGN 都要高出 9.3%。我们的 BASIC 模型在鲁棒性评估中也表现出显著的改进。例如,在 5 个具有自然分布差异的测试集 ImageNet-A、R、V2、Sketch 和 ObjectNet 上,我们的模型实现了84.3% 的 top-1 平均准确率,与其原始的 ImageNet 准确率相差甚微。为了实现这些结果,我们在三个维度上扩展了 CLIP 和 ALIGN 的对比学习框架:数据大小、模型大小和批大小。我们的数据集有 66 亿个带噪声的图像-文本对,比 ALIGN 要大 4 倍,比 CLIP 大 16 倍。我们最大的模型有 30 亿个权重,其参数量是 ALIGN 和 CLIP 的 3.75 倍,操作量是它们的 8 倍。最后,我们的批大小为 65536,比 CLIP 大 2 倍,比 ALIGN 要大 4 倍。我们在实现 BASIC 的组合缩放规则时遇到了两个主要的挑战。首先,我们遇到的主要挑战是加速器(如 GPU 和 TPU)的有限内存。为了克服内存限制,我们提出了两种简单的方法,利用梯度检查点和模型并行性。其次,虽然增加数据集大小和模型大小是提高深度学习模型(如 BASIC)性能的一种标准方法,但大对比批大小对这种基于对比训练的图像-文本模型的影响还不为人们所了解。为了探究大对比批大小的益处,我们开发了一个理论框架,证明了较大的对比批大小可以导致像 BASIC 这样的图像-文本模型的较小的泛化差距。

0
下载
关闭预览

相关内容

Beginner's All-purpose Symbolic Instruction Code(初学者通用的符号指令代码),刚开始被作者写做 BASIC,后来被微软广泛地叫做 Basic 。
NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
11+阅读 · 2021年12月9日
近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码
专知会员服务
65+阅读 · 2020年10月20日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
浅聊对比学习(Contrastive Learning)
极市平台
2+阅读 · 2022年7月26日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月29日
Arxiv
0+阅读 · 2023年5月27日
Meta-Transfer Learning for Zero-Shot Super-Resolution
Arxiv
43+阅读 · 2020年2月27日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员