表示学习对于开发健壮的视觉系统至关重要。这一学习过程的有效性在很大程度上取决于数据的质量和数量。合成数据在灵活性、可扩展性和可控性方面具有独特的优势。最近生成式模型的进展使得合成逼真的图像和高质量文本成为可能,大大提高了合成数据的可行性。尽管有这些进展,合成数据在表示学习和视觉识别任务中的应用仍然落后,使用合成数据训练的模型与使用真实数据训练的模型之间存在明显的性能差距。在本论文中,我们展示了我们最近为缩小这一差距并利用合成数据训练最先进的表示模型所做的努力。我们首先利用来自大型语言模型的合成文本来增强视觉-语言模型的训练。接着,我们探索了由文本到图像模型生成的合成图像,研究了这些图像在用于监督模型训练时适用的缩放规律。我们还引入了一种专为合成图像设计的多正样本对比损失,展示了它们在表示学习中相对于真实图像的优势。最后,我们提出了一个全新框架,使用纯合成文本和图像训练视觉模型,实现了卓越的性能,在包括细粒度分类和语义分割等任务中超越了使用真实图像训练的最先进模型。这些工作为在表示学习中推进生成式模型并解决关键计算机视觉任务奠定了坚实的基础,标志着在利用合成数据提升数据中心人工智能生态系统中表示学习的进步。
数据的质量和数量在训练视觉模型中起着至关重要的作用。历史上,研究的重点一直放在创建大型、精心策划的图像数据集上,这些数据集在图像层面带有分类标签,用于训练监督模型 [105, 40, 180, 152]。著名的例子包括 CIFAR [105] 和 ImageNet [40]。尽管创建这些数据集在较小规模上是有效的,但将其扩展到数亿个样本时会面临显著的挑战。这些挑战包括大规模策划所需的密集劳动,以及随着数据集规模的扩大,噪声和质量问题增加的潜在风险。
最近,使用语言监督训练视觉表示模型的兴趣逐渐增加 [93, 144]。以 CLIP [144] 等模型为代表,这一转变超越了像 ImageNet 这样的数据集中固定的、预定义的类别。训练这些模型需要大量的图像-文本对数据集。发展趋势包括从创建包含数百万图像-文本对的 Conceptual Captions 数据集 [169],到包含数十亿对的 LAION 数据集 [165]。然而,这种方法并非没有挑战。大规模的数据来源,通常通过网络抓取,带来了显著的噪声。可扩展性问题仍然存在。此外,这些数据集的巨大规模在存储和数据传输方面也带来了实际困难。例如,LAION-2B 需要数十TB的磁盘空间,下载可能需要数天甚至数周。
幸运的是,生成模型的最新突破为合成数据生成引入了新的可能性。生成模型产生的合成数据在表示学习中越来越有用,原因有以下几点:首先,随着大规模语言模型和文本到图像模型的发展,合成数据的质量得到了改善。这些模型现在能够生成逼真且富有创造性的文本以及高质量的图像。其次,它们具有带宽效率优势,因为只需传输模型,而不需要传输整个数据集。例如,Stable Diffusion [154] 这样的模型仅占用约 5 GB 的磁盘空间,这相比庞大的 LAION-2B 数据集要高效得多。然而,这种效率的代价是需要额外的计算资源来按需生成合成数据。第三,它们通过显著减少数据集策划所需的人力劳动,促进了更轻松的可扩展性。由于数据是由模型生成的,因此扩展数量比收集和标注现实世界的数据更容易。最后,也是最令人兴奋的,它们允许通过输入文本来控制生成的内容。这种能力有可能生成新的组合,并且无需额外成本即可提供类别标签或成对的文本监督。
考虑到合成数据的众多优势,本论文旨在探讨一个简单但雄心勃勃的问题:是否有可能使用合成数据训练最先进的表示模型?在整个工作中,我们将探索这一核心问题,并展示如何通过合成数据训练模型可以在广泛研究的计算机视觉任务上取得卓越表现。
通过系统地解决与合成数据相关的挑战和机遇,本论文旨在为机器学习研究的发展做出贡献,并提供关于合成数据作为训练有效表示模型的新来源的宝贵见解。