本文研究了在计算资源有限的条件下缩小对比语言-图像预训练(CLIP)模型的性能。我们从三个维度探讨CLIP模型:数据、架构和训练策略。关于数据,我们展示了高质量训练数据的重要性,并证明较小的高质量数据集可以胜过较大的低质量数据集。我们还研究了模型性能如何随数据集大小变化,发现较小的ViT模型更适合较小的数据集,而较大的模型在有固定计算资源的较大数据集上表现更佳。此外,我们提供了在CLIP训练中选择基于CNN的架构还是基于ViT的架构的指导。我们比较了四种CLIP训练策略——SLIP、FLIP、CLIP以及CLIP+数据增强,并显示训练策略的选择取决于可用的计算资源。我们的分析揭示,CLIP+数据增强能够仅使用一半的训练数据达到与CLIP相当的性能。这项工作提供了如何有效训练和部署CLIP模型的实用见解,使其在各种应用中更易于访问和负担得起。

近年来,图像和语言表征学习领域的兴趣激增(Radford et al., 2021; Jia et al., 2021; Pham et al., 2021; Ramesh et al., 2022),其目标是捕捉视觉和文本信息之间丰富而复杂的相互作用。在这一领域中最有前景的方法之一是对比语言-图像预训练(CLIP)框架,它利用大规模文本和图像数据学习一个统一的表征空间,适用于这两种模式。CLIP在一系列下游任务上取得了最先进的表现,并且已经证明能够很好地泛化到分布外数据(Chen et al., 2019; Jia et al., 2021; Miller et al., 2021; Taori et al., 2020; Nguyen et al., 2022; GontijoLopes et al., 2021)。虽然先前关于扩展对比语言-图像预训练(CLIP)的研究,如 Li et al. (2022); Cherti et al. (2022),主要集中在大计算场景下,我们的工作旨在探索资源限制下的CLIP性能。我们提出了一个全面的研究,从三个方向缩小CLIP的规模:数据、架构和训练策略。具体来说,我们研究了使用不同训练数据大小的效果,比较了不同架构在不同计算预算下的性能,并评估了不同预训练策略的有效性。我们的实验在一个大型图像和语言数据集WebLI上进行(Chen et al., 2022),该数据集包含超过34亿个英语图文对。特别是,我们为大部分实验设置了计算限制,且大部分实验的样本数据量最多为34亿。

我们在不同大小的数据集上训练,以探索在ImageNet变体上的表现是否与在ImageNet上的表现一致。我们还探讨了数据质量的重要性,并证明了一小部分高质量数据可以胜过更大的数据集。我们发现仅使用高质量数据的40%可以获得比使用整个数据集更好的表现,并研究了模型性能随数据集大小增加的变化情况。我们的结果为选择CLIP模型的训练数据提供了指导,这是实际应用中的一个关键问题。

关于架构,我们在不同的数据集大小下比较了多种架构。我们研究了根据数据集大小和计算预算如何选择视觉编码器的大小。我们显示了更大的ViT(Dosovitskiy et al., 2020)并非总是更好的选择。我们还展示了在CLIP训练中选择CNN(He et al., 2016)和ViT架构的重要性。虽然以前的研究表明基于ViT的CLIP性能优于基于CNN的CLIP模型,但我们发现当采样数据量较小时,CNN表现更佳。

最后,我们比较了四个选项:SLIP(Mu et al., 2021)、FLIP(Li et al., 2022)、CLIP和CLIP+数据增强。我们显示SLIP(Mu et al., 2021)并非总是比CLIP和FLIP更优的选择。当训练集大小较小时,SLIP比CLIP表现更好。然而,随着训练数据大小的增加,SLIP的表现与CLIP相似,但需要两倍的计算成本。我们的结果提供了CLIP训练中计算成本与性能之间的权衡的见解,这是实际应用中的一个关键问题。

成为VIP会员查看完整内容
15

相关内容

自监督预训练图基础模型综述:基于知识的视角
专知会员服务
37+阅读 · 3月28日
【2023新书】基于深度学习的视觉目标跟踪
专知会员服务
82+阅读 · 2023年10月10日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
41+阅读 · 2023年5月30日
【2022新书】深度学习归一化技术,117页pdf
专知
17+阅读 · 2022年11月25日
【新书】分布式强化学习,280页pdf
专知
19+阅读 · 2021年12月19日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
54+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员