缩小CLIP规模：数据、架构与训练策略的全面分析

本文研究了在计算资源有限的条件下缩小对比语言-图像预训练（CLIP）模型的性能。我们从三个维度探讨CLIP模型：数据、架构和训练策略。关于数据，我们展示了高质量训练数据的重要性，并证明较小的高质量数据集可以胜过较大的低质量数据集。我们还研究了模型性能如何随数据集大小变化，发现较小的ViT模型更适合较小的数据集，而较大的模型在有固定计算资源的较大数据集上表现更佳。此外，我们提供了在CLIP训练中选择基于CNN的架构还是基于ViT的架构的指导。我们比较了四种CLIP训练策略——SLIP、FLIP、CLIP以及CLIP+数据增强，并显示训练策略的选择取决于可用的计算资源。我们的分析揭示，CLIP+数据增强能够仅使用一半的训练数据达到与CLIP相当的性能。这项工作提供了如何有效训练和部署CLIP模型的实用见解，使其在各种应用中更易于访问和负担得起。

近年来，图像和语言表征学习领域的兴趣激增（Radford et al., 2021; Jia et al., 2021; Pham et al., 2021; Ramesh et al., 2022），其目标是捕捉视觉和文本信息之间丰富而复杂的相互作用。在这一领域中最有前景的方法之一是对比语言-图像预训练（CLIP）框架，它利用大规模文本和图像数据学习一个统一的表征空间，适用于这两种模式。CLIP在一系列下游任务上取得了最先进的表现，并且已经证明能够很好地泛化到分布外数据（Chen et al., 2019; Jia et al., 2021; Miller et al., 2021; Taori et al., 2020; Nguyen et al., 2022; GontijoLopes et al., 2021）。虽然先前关于扩展对比语言-图像预训练（CLIP）的研究，如 Li et al. (2022); Cherti et al. (2022)，主要集中在大计算场景下，我们的工作旨在探索资源限制下的CLIP性能。我们提出了一个全面的研究，从三个方向缩小CLIP的规模：数据、架构和训练策略。具体来说，我们研究了使用不同训练数据大小的效果，比较了不同架构在不同计算预算下的性能，并评估了不同预训练策略的有效性。我们的实验在一个大型图像和语言数据集WebLI上进行（Chen et al., 2022），该数据集包含超过34亿个英语图文对。特别是，我们为大部分实验设置了计算限制，且大部分实验的样本数据量最多为34亿。

我们在不同大小的数据集上训练，以探索在ImageNet变体上的表现是否与在ImageNet上的表现一致。我们还探讨了数据质量的重要性，并证明了一小部分高质量数据可以胜过更大的数据集。我们发现仅使用高质量数据的40%可以获得比使用整个数据集更好的表现，并研究了模型性能随数据集大小增加的变化情况。我们的结果为选择CLIP模型的训练数据提供了指导，这是实际应用中的一个关键问题。

关于架构，我们在不同的数据集大小下比较了多种架构。我们研究了根据数据集大小和计算预算如何选择视觉编码器的大小。我们显示了更大的ViT（Dosovitskiy et al., 2020）并非总是更好的选择。我们还展示了在CLIP训练中选择CNN（He et al., 2016）和ViT架构的重要性。虽然以前的研究表明基于ViT的CLIP性能优于基于CNN的CLIP模型，但我们发现当采样数据量较小时，CNN表现更佳。

最后，我们比较了四个选项：SLIP（Mu et al., 2021）、FLIP（Li et al., 2022）、CLIP和CLIP+数据增强。我们显示SLIP（Mu et al., 2021）并非总是比CLIP和FLIP更优的选择。当训练集大小较小时，SLIP比CLIP表现更好。然而，随着训练数据大小的增加，SLIP的表现与CLIP相似，但需要两倍的计算成本。我们的结果提供了CLIP训练中计算成本与性能之间的权衡的见解，这是实际应用中的一个关键问题。

成为VIP会员查看完整内容