神经网络自动化了在计算机上表示对象及其关系的过程,包括从家庭用品到分子的一切。通过将不同实例转换为共享的表示空间来获得新的表示,其中数据的变化可以使用简单的几何量度量,如欧几里得距离。本论文研究了这一空间的几何结构及其对学习过程关键属性的影响,包括获得新技能所需的数据量、预测何时会失败,以及学习的计算成本。我们检验了神经网络表示的几何结构的两个基础方面。 第一部分设计并研究了考虑到数据在表示空间中的位置的学习算法。专注于对比自监督学习,我们设计了a) 困难实例采样策略和b) 控制模型学习哪些特征的方法。每种方法都在关键特性上产生了改进,如训练速度、泛化和模型可靠性。
第二部分研究了如何使用非欧几里得几何来构建尊重物理数据中出现的对称性和结构的网络架构,为学习提供了强大的归纳偏差。具体来说,我们使用诸如实射影平面和光谱体这样的几何空间来构建a) 能够尊重特征向量对称性的可证明强大的神经网络,这对于在图结构数据上构建变压器是重要的,以及b) 解决图上的组合优化问题的神经网络,如寻找大团或小割,这些问题在分子工程和网络科学中出现。
计算机上对世界观察的描述影响了计算问题解决过程的所有部分。因此,发现更适合简单计算过程的描述或表示,几十年来一直是计算科学进步的一个关键且持续的驱动力。与所有其他计算过程一样,人工智能系统提取和使用的数据表示方式对其行为产生了关键影响,例如获得新技能所需的数据量、预测何时会失败,以及其学习的速度。
然而,现代基于深度学习的人工智能系统最重要的优势之一是它们能够处理基本的感知输入,如图像的单个像素,并在内部决定保留哪些来自像素级特征的信息,以及丢弃哪些。
除了自动化表示获取之外,深度学习系统的另一个关键优势是能够在单一、连贯的空间中表示不同的数据点。例如,生活在极大的、高维空间中的图像(例如,免疫组织化学图像通常大小为1024×1024×3或更大)被转换为相对较小、紧凑的几千维空间。这种表示空间允许数据之间的比较,而这个空间的几何属性,如距离、方向和角度,不仅捕捉单个对象,还捕捉对象之间的关系。
然而,这种几何性质通常是浮现的。也就是说,它不是直接学习的,而是作为使用低粒度监督(如类标签)的端到端系统中的一个中间步骤学习的。这篇论文的目标是探索更明确编程这种几何性质的思路、方法和新方向。通过明确处理,希望能够更大程度地控制表示空间的属性,使得使用这个空间来推理世界变得更加容易。 这篇论文有两个主要部分。第一部分研究对比表示学习,这是一种学习欧几里得结构表示的通用框架。本部分从第二章开始,概述了贯穿整篇论文的对比学习的一般介绍。然后,第三章提出以下问题:对比学习的负样本应该如何生成?负样本是对比学习中两个关键设计选择之一,但大多数以前的负样本采样方法都是简单的,例如,随机均匀采样。我们引入了根据它们在表示空间中的位置采样负样本的技术。通过以位置依赖的方式采样负样本,我们能够生成更有信息量的样本,加速学习并提高最终表示空间的质量,以用于下游任务。在第四章中,我们更仔细地检查对比学习模型实际编码了哪些输入数据特征——在许多可能性中。不出所料,我们展示了正负样本的生成方式影响特征学习,并概述了理解这种关系的直观方法。更令人惊讶的是,我们还发现调整采样的明显方法——例如,调整负样本的难度——并没有带来明确的胜者。不同的采样方法在某些下游任务上表现更好,在其他任务上表现更差。作为回应,我们探索了使用表示空间几何性质修改样本的新原则。我们的隐式特征修改方法扰乱嵌入,以去除用于解决对比任务的任何特征,然后要求模型使用新特征重新解决对比任务。这迫使模型寻找新的和不同的特征来使用,从而鼓励模型不忽略它之前可能忽略的输入数据的某些方面。 第五章退一步重新考虑表示空间应该具有的结构。除了编码数据之间的相似性,第五章还论证了将数据的复杂变换编码为嵌入空间中的可预测、简单变换也是有价值的。具体来说,我们引入了一种训练方法,该方法强制数据的增强——裁剪、旋转等——对应于球形嵌入空间的正交变换。我们发现我们的方法导致了改进的下游性能,以及对其他对比方法不敏感的数据特征的增加敏感性。
本节的最后一章,第六章,探讨了大规模的对比学习。随着模型参数和数据集大小扩展到数亿甚至数十亿,考虑模型性能的扩展不仅仅是重要的,还有训练它们的成本。性能可靠地扩展,但成本增长过快的训练方法最终会输给性能增长更慢,但成本增长更慢的方法。由于对比学习在大规模时相对昂贵,因为它使用了每个批次样本的两个完整副本。另一个重新出现的训练方法——掩码自编码器(MAE)——非常高效,因为它只使用每个批次样本的25%的一个副本,但性能相对较差,特别是对于少样本的下游任务。我们的贡献是引入了CAN,一种对比学习和MAE的混合体,享有更好的效率-性能权衡。与对比学习相比,它的成本降低了70%,同时性能优于对比学习和MAE。对CAN的一个重要解释是几何的:MAE学习了强大的嵌入,但由于它具有非线性的视觉变压器解码器,这可能轻易地撤销非线性变换,因此未能以线性可分的方式安排其几何结构。通过向MAE的嵌入空间添加对比成分(即,在解码器之前),CAN迫使嵌入之间的欧几里得距离具有意义,从而大大提高了少样本性能。
这篇论文的第二部分探索了表示空间几何性质与问题结构之间的关系。第七章考虑对称性,特别是特征向量的对称性(例如,符号对称性:如果𝑣是特征向量,那么−𝑣也是)。特征向量在机器学习中广泛使用。特别是对于图上的学习,谱理论多年来为许多问题提供了坚实的数学基础。这在当今仍然延续,图的拉普拉斯特征向量被广泛用作构建图上变压器的节点位置编码。然而,符号对称性(以及当特征值的重数大于1时出现的更一般的基础对称性)是一个问题,因为神经网络对符号变化不变,因此在输入数据的不相关变化下不可靠地改变预测。
为了解决这个问题,我们引入了一个符号不变的架构SignNet和一个基础不变的BasisNet——这些模型内置了特征向量的对称性。我们的模型在使用拉普拉斯位置编码时显著提高了性能,并且在数学上非常强大:SignNet可以近似所有符号不变函数。SignNet的表达能力基于其嵌入空间的几何结构。我们展示了特征向量的理想空间是空间R𝑛/{−1, +1},通过将𝑣和−𝑣粘合在一起成为一个点,消除了符号歧义。关键的是,这个商空间是一个被广泛研究的流形,称为实射影平面。使用实射影平面的几何属性——特别是,它可以在一个2𝑛维欧几里得空间中被渲染——我们能够设计SignNet的各个部分,以便它们始终在欧几里得空间中处理向量,但这些欧几里得空间以某种方式连接起来,以反映实射影平面,由此我们得出了普适表达性的结果。对BasisNet的分析也以同样的方式进行,但使用相应的商空间,即Grassmanian。