对比学习最近已成为一种强大的无监督表示学习方法,在多个领域取得了令人印象深刻的实证成功。尽管这些方法在实践中表现有效,但要全面理解它们的理论基础仍然是一个重大挑战。本论文旨在通过提供一个基于接近现实场景假设的原则性调查,弥合对比学习的实证成功与理论理解之间的鸿沟。我们引入了一个受谱图理论启发的新分析框架,证明了对比学习在隐式地对由数据分布定义的概念图上执行谱聚类。我们表明,对比学习所学习的表示与图的邻接矩阵的特征函数一致,从而为下游线性分类任务的性能提供了可证明的保证。我们扩展了这一框架,正式刻画了一个现象,即在对比学习表示上训练的线性分类器可以成功地跨领域迁移。此外,我们还正式刻画了模型架构的归纳偏置如何导致表示在不同下游任务中的性能差异。
高质量的数据表示可以作为各种实际机器学习应用的基础,涵盖从搜索到面向新任务和新领域的数据高效适应等多个方面。许多成功的表示学习算法在很大程度上依赖于监督学习,而监督学习需要对数据进行昂贵且耗时的标注 [Salakhutdinov 和 Hinton,2007]。
与昂贵且有限的标注数据相比,互联网上存在大量丰富且廉价的未标注数据。无监督表示学习旨在从没有预先存在标签的数据中发现模式,并生成能够捕捉原始数据本质特征的表示。这种方法为训练可迁移的数据表示提供了有希望的路径,这些表示可以有效地适应各种下游任务。
特别是,对比学习最近作为一种强大的从未标注数据中学习表示的方法出现。对比学习的核心思想是“正对”(positive pairs)的概念,即语义上相近的成对数据点,可以直接从未标注数据中构造,而无需人工标注。相应地,还有“负对”(negative pairs)的概念,即通常语义上无关的成对数据点。在计算机视觉领域,正对通常由两个通过数据增强从同一原始图像生成的图像组成,而负对则由两个独立随机采样的图像组成。给定正对和负对,对比学习通过鼓励正对的表示更加接近,同时使负对的表示远离来学习数据点的表示。 许多对比学习方法使用孪生网络(Siamese Networks)[Bromley 等,1993] 来学习特征,其中两个具有共享权重的神经网络应用于正对中的两个数据点,表示是神经网络对原始输入的输出。SimCLR 的开创性工作 [Chen 等,2020b] 表明,利用孪生网络结构的对比学习表示可以在下游分类任务中取得与监督学习竞争的线性探测准确率。一些后续工作 [Chen 和 He,2020,Grill 等,2020,Bardes 等,2021] 探索了不同的损失目标和正则化技术,旨在减少算法中一些看似随意且不自然的方面,例如停止梯度操作(即在训练过程中通过孪生网络的一条分支停止梯度反向传播)或大批量大小的必要性。然而,它们大多仍围绕孪生网络结构这一核心思想展开。
这些方法取得了令人印象深刻的实证成功,通常超过了完全监督模型的性能,而无需标注数据。此外,学习到的表示通常具有良好的结构,例如线性可分性,在这些表示上训练的线性分类器能够在下游分类问题上表现良好。这些方法的惊人简单性和对比学习表示中编码的结构似乎表明该方法利用了数据分布通过正对构造定义的一些内在属性。然而,开发对这些自监督表示为何如此有效的全面理论理解仍然是一个重大挑战。需要超越经典统计学习理论的新数学框架来全面解释它们的表现,而对比学习中广泛使用的深度神经网络进一步增加了分析的复杂性。
先前的工作尝试通过信息理论的视角解释对比学习的成功 [Tsai 等,2020,Tosh 等,2021]。这一理论框架关注于通过学习的表示捕获的信息。从直观上讲,在初始化时,神经网络的输出捕获了数据点的随机子集信息。在训练过程中,表示将捕获正对之间更多共享的信息,并丢弃那些特定于正对中某一数据点的信息。如果共享信息包含了大部分与下游任务相关的信息,那么最终学习到的表示也将捕获这些信息,从而具备解决下游任务所需的足够信息。然而,由于多个表示可以包含相同的信息,但具有非常不同的几何结构,因此该框架缺乏保证,无法确保使用简单(例如线性)模型高效地解决下游任务。
如果对数据做出更多假设,便能解决这一限制。一个相对较强的假设是条件独立性设置,其中给定类别标签,正对是条件独立的。例如,Arora 等 [2019] 表明,在给定类别标签的条件独立性下,对比学习算法可以在下游线性分类任务中实现较小的误差。一些后续工作(例如,Lee 等 [2020])将这一思想扩展到正对在某些潜在变量上条件独立的设置,这些潜在变量可能具有比类别标签更细粒度的含义。然而,在计算机视觉应用中的实际算法中,正对通常由同一图像的两个增强组成,因此它们是高度相关的。它们可能只有在条件化于非常复杂的隐藏变量(如原始自然图像)时才独立,这可能使得之前的结果无法有意义地应用。
本论文旨在在反映现实世界的较少限制假设下,对对比学习进行原则性的理论研究。本论文的一个关键贡献是提出了一种新的对比损失——我们称之为谱对比损失——它作为更广泛使用的 InfoNCE 损失的代理,后者在理论上较难分析。我们的实验证明,谱对比损失捕获了标准对比损失的大部分性能,同时使我们能够建立一个受谱图理论启发的分析框架。 第三章介绍了我们基于谱图理论理解对比学习成功的一般理论框架。为了建立我们的理论框架,我们引入了一个群体层级的“正对图”,该图捕捉了对比学习管道中的正对结构。在这个图中,节点对应于所有出现在正对中的数据点,边表示哪些节点对实际上形成正对。通过将数据置于这个图的上下文中,我们能够利用一些图论(特别是谱图理论)中的思想和工具来分析对比学习。 我们的关键洞察是,认为对比学习可以被视为隐式地在正对图上执行谱聚类。谱聚类 [Ng 等,2001] 是一种流行的聚类算法,具有悠久的历史。其核心思想是,给定任何图,可以对图的拉普拉斯矩阵进行谱分解,并使用特征向量在图中找到近似最优的聚类。运行谱聚类需要对整个拉普拉斯矩阵进行操作,当图非常大时,这可能计算上非常昂贵。 在正对图的背景下,图中的节点数基本上是数据分布中所有数据点的数量,因此可能非常庞大。然而,幸运的是,我们的结果表明,存在一个损失函数,使得最小化该损失函数等同于隐式执行图拉普拉斯矩阵的谱分解。这个损失函数在精神上与许多对比损失相似,并且可以通过正对和负对进行有效采样,因此我们称其为谱对比损失。 我们证明,通过最小化谱对比损失学习到的表示与图的邻接矩阵的特征向量对齐,从而继承其聚类结构。在对正对图中的聚类与下游任务类别对齐的温和假设下,来自不同下游类别的数据的对比表示将是线性可分的。值得注意的是,我们的框架不需要依赖先前对比学习理论工作中所依赖的严格条件独立性假设 [Arora 等,2019,Tosh 等,2021]。 我们分析了使用谱对比损失学习到的表示进行线性分类的性能。在对正对图进行温和扩展假设的情况下,我们证明,当表示维度超过图中聚类的数量时,在线性分类器上训练的表示可以以高精度恢复真实标签。我们进一步表明,谱对比损失可以通过经验数据成功最小化,只需多项式数量的未标注样本。我们的有限样本分析利用标准泛化界限,证明所需的未标注样本数量与所选函数类的 Rademacher 复杂度成比例。 第四章基于这一框架,研究了对比学习在分布变化下的表现。特别是,我们研究了对比学习如何帮助解决无监督领域自适应问题,在该问题中,给定有标签的源领域和未标注的目标领域(具有相同类别标签),我们希望在目标领域实现高分类准确率。我们正式分析了“线性迁移性”这一经验现象,即在源领域对比表示上训练的线性分类器在目标领域上表现良好,其中该表示通过在源领域和目标领域的联合数据集上进行对比学习训练。事实上,这种简单的方法已经被证明能够实现与多个最先进的领域自适应算法 [Shen 等,2022b] 竞争的性能。 我们证明,线性迁移性是在跨领域关系的弱假设下产生的:即,同类别的跨领域点之间比不同类别的跨领域点之间更相关。直观地说,这意味着,尽管源领域和目标领域可能存在显著的分布差异,但类别之间的相对相似性在跨领域中得到了保留。在这个假设下,我们证明了在源领域表示上学到的线性分类器(使用一种新的预处理平均方法)可以在目标领域的分类任务中成功地表现。
我们的结果表明,对比表示不仅捕捉了类内结构,还捕捉了不同类别之间的相对几何结构。这与先前关于无监督领域自适应的理论工作有所不同,后者通常要求更强的假设,例如有界密度比或显式的源目标重叠 [Sugiyama 等,2007,Ben-David 等,2010,Zhang 等,2019,Zhao 等,2019a]。
为了支持我们的理论发现,我们提出了一种改进的线性评估方法,用于无监督领域自适应与对比表示。我们的方法通过直接对类内表示进行平均并应用预处理矩阵来学习线性分类器。我们在多个标准领域自适应基准数据集上验证了该方法的有效性,证明其优于先前的最先进方法。
第五章研究了神经网络模型架构在对比学习中的作用。我们不再将神经网络视为黑箱函数逼近器,而是明确描述了架构的归纳偏置如何塑造学习到的表示。
我们引入了“最小可实现聚类”的概念,以捕捉架构所施加的约束。尽管正对图可能展示了大量的自然聚类,但架构可能只能实现其中的一部分聚类。我们证明,对比学习只恢复那些与架构兼容的聚类。因此,低维的对比表示即使在整个正对图中的聚类数量很大时,仍然可以在下游任务中取得成功。 我们在多个合成数据分布上实例化了我们的理论,证明了架构的归纳偏置可以显著减少所需的表示维度。例如,在具有少量不变特征和大量虚假特征的超立方体数据分布上,我们证明,当下游标签依赖于单一的不变维度时,线性对比表示就足够了,而 ReLU 网络则能够处理更复杂的标签函数。我们为其他架构提供了更多示例,包括 Lipschitz 连续函数和卷积网络。在每种情况下,我们展示了对比学习的样本复杂度与可实现聚类的数量成比例,而不是与自然聚类的总数成比例。
为了支持我们的理论,我们提出了一种实证方法来估计可实现聚类的数量,并将其应用于具有 ResNet-18 架构的 CIFAR-10 数据集。我们的实验验证了架构施加的约束导致可实现聚类的数量相对较小,这与我们的理论预测一致。
本论文的其余部分组织如下:第三章展示了我们的对比学习谱框架,包括群体层级损失的分析、有限样本泛化界限和实验证明。第四章将该框架扩展到领域自适应设置,正式刻画了对比表示的线性迁移性,引入了改进的线性评估方法,并展示了其实证有效性。第五章分析了归纳偏置在对比学习中的作用,引入了最小可实现聚类的概念,并在合成数据分布上实例化了理论,为架构约束提供了实证支持。最后,第六章总结了论文内容并讨论了未来的研究方向。