摘要

深度学习（DL）已经成为现代人工智能中最成功和最广泛采用的方法之一。伴随着这些成功的是越来越复杂和高成本的架构设计，其基础是一个核心概念：层。本论文对层的这一基本作用提出了挑战，并深入介绍了一种新的、无层的深度学习范式，该范式将输出计算为动态系统的固定点：深度均衡（DEQ）模型。

首先，我们介绍了深度均衡模型的一般表述。我们讨论了这些模型如何表达 "无限层"的神经网络，解耦前向和后向通道，但成本和设计复杂度只有一个传统层--即使在一些最具竞争力的背景中（如语言建模、语义分割等）。

其次，我们进一步讨论这种均衡方法带来的挑战和机遇。我们表明，DEQ的表述揭示了深度学习的许多新特性，这些特性长期以来被传统的层堆叠方案所掩盖。利用它们，我们可以训练和部署这些新的和轻量级的均衡算法，大大补充了深度学习的现有发展，并使我们能够在最先进的水平上改善多个方面的结果（例如，光流估计）。

DEQ的方法已经在理论和经验两端导致了社区中关于隐性深度学习的新研究领域（例如NeurIPS 2020教程）。因此，在本论文的结尾，我们讨论了未来的工作如何进一步利用这种均衡的观点来建立更多可扩展的、高效的和准确的下一代DL算法，包括对科学计算的算法，其特点是对复杂的、高维的动态系统的解决。

第1章简介

在过去的十年里，现代深度学习方法的研究和发展呈现出爆炸式的增长。然而，几乎所有这些方法（也许是迄今为止的深度学习领域）的核心是一个关键的概念和基本单位，没有一个模型架构师可以避免：层。具体来说，深度模型是通过将许多层堆叠在一起建立的，这就形成了一个巨大的架构，旨在适应一些特定的任务。例如，深度卷积网络是由几个卷积层和其他非线性或正则化组件组成的，如ReLU[175]、规范化[13, 110, 246]和dropout[214]。然后，这些组件以多种方式连接起来（如ResNets[96]，U-Nets[195]），以提取特征图，通常遵循一个复杂的时间表（如何时降采样/升采样，多少个阶段，每个阶段的哪些层）。同时，出现了不同种类的图层设计，如多头自注意力[233]，以及图层[124, 202]。过去几年中最著名的人工智能应用，如高分辨率图像合成[118]、蛋白质结构预测[117]和文本生成[32]，都包含了数百、数千或更多的这些基本单元。

在高层次上，这种基于层的观点将深度网络视为一个巨大的计算图，有规定的、详细的指令，说明我们如何从输入中计算输出（就像一个计算器）。然而，这产生了许多挑战。首先，作为一个超参数，构建深度网络的深度和连接性往往是模型设计师的责任。这迅速增加了这些模型的设计、使用和测试的复杂性，特别是当它们变得庞大时[96, 220, 233, 250]。其次，这些网络都依赖于一种叫做梯度反向传播的算法[89, 197]来训练。这需要深层网络在正向传递中记忆所有中间层的激活，以反向遍历计算图[46]。这经常会造成内存占用的瓶颈，因为内存消耗会随着架构深度的增加而迅速增长，并达到硬件的极限。第三，这样的层构成使得深层网络相当缺乏弹性，因为无论输入的复杂程度如何，它们都要进行同样的计算量（例如，见图1.1）。例如，我们不能简单地跳过一个层（除非我们添加更多的层来帮助我们控制，比如SkipNet[238]），因为任何这样的任意移除都会使模型的功能与它的训练方式不同。

图1.1: 想象一下，一辆自主车辆。当它接收和处理流式摄像机帧时，每个帧都需要经过完全相同的深度网络计算图（比如20层）。然而，输入是高度相关的，几乎是相同的。基于层的深度学习导致该模型不断重复相同的工作量。来自Cityscapes[53]数据集的图像。

尽管有这些缺点，层还是被深深地堆积起来，并被认为是现代深度学习中不可或缺的，原因如下。

表达性。长期以来，人们认为由许多层组成的模型为复杂的输入输出映射（经常是非线性的）奠定了基础[89, 102]。
特征层次结构。一个常见的观点是，层代表决议。例如，Lee等人[136]假设，不同的层次提取图像的不同抽象部分。
可扩展性。为了建立大规模的模型，我们依赖于灵活连接大量图层的能力；非常深入的训练已经被证明是可行的，如规范化[13，110]，剩余连接[96]等技术。

本论文旨在重新审视层的这个基本概念。我们要解决的一个关键问题是：我们到底需不需要层？

我们提出了一种新的、隐含的、无层的深度学习方法，被称为深度均衡（DEQ）模型。通过这种均衡方法，我们基本上提出了一种做深度学习的不同方式，以及如何将这些深度网络作为算法（而不是计算器）来构建和分析。这些DEQ模型代表了无限深的神经网络，但只有一个单层是隐式建模的（稍后定义）。我们表明，深度学习中的这种隐含性使我们即使在没有层的情况下也能保持上述三个特性（表现力、特征层次和现实世界环境中的可扩展性），同时纠正了传统DL所遭受的主要缺点（例如，内存占用）。

在本章的其余部分，我们首先阐述了 "隐性 "在深度学习背景下的含义，以及与此方向相关的先前工作概述。然后，我们提供了本论文的总体路线图，我们希望它能作为深度隐含层的过去、现在和未来的蓝图。

1.1 深度学习的隐性观点

在这一节中，我们将对过去关于深度学习方法的隐性和连续性的相关工作进行简要的调查。正如将在第二章介绍的那样，DEQ模型可以被看作是一个无限深的网络，但也是一个单层网络，需要注意的是这一层是隐性定义的：给定输入x和一个（通常是参数化的）函数F，输出z⋆被定义为解决一些非线性方程的值，即

特别是，几十年来，深度学习界一直在探索隐性状态的隐性建模，尤其是在递归网络背景下。例如，Pineda[186]和Almeida[4]研究了用于训练递归动力学的隐式分化技术，也被称为递归反向传播（RBP）。在这些情况下，RNN被结构化（例如，通过Lyapunov函数），因此它们的推理阶段是一个可证明的收敛动态系统，人们需要解决RNN序列的稳定状态（它在每个时间步骤吸收相同的输入）。在这些工作之后，Liao等人[144]还将RBP理论扩展到基于诺伊曼级数和共轭梯度的更稳定和更有效的变体（并主要研究了它们与这些RNN中截断反向传播-通过时间（TBPTT）的关系）。Zhang等人[263]同样也在RNN架构内执行固定点条件。然而，这些RNN只能应用于极其有限的设置，即每个时间步长都有相同的输入，这在实践中很少发生（如文本数据、时间序列等）。

网络设计的隐性方法最近在非常不同的形式和背景下重新引起了人们的兴趣。Amos和Kolter[6]、Gould等人[90]、Johnson等人[116]都提议通过优化问题（即arg min算子）进行区分，从而将公式（1.1）视为优化（如KKT）条件。例如，Amos和Kolter[6]提出在深度网络的每个单独的层中解决一个二次方程序（QP）；例如，给定前一层的隐藏状态z[i]，OptNet[6]的第i+1层计算以下QP：

其中z[i]是优化（隐藏）变量，Q⪰0，q，A，b，G，h是定义这个QP优化层的参数。通过这个层的微分立即从公式（1.1）（当Q≻0时）中得出，因为我们可以通过其KKT方程K（z⋆, ν⋆, λ⋆ ）=0进行微分，其中ν, λ是对应于约束条件（1.3）和（1.4）的拉格朗日对等变量。本着类似的精神，Wang等人[237]嵌入了一个基于优化的逻辑结构学习层；de Avila BelbutePeres等人[60]，Qiao等人[188]使用这些更多的结构层来构建可微分的物理引擎（例如，人们可以将约束的刚体动力学模拟为深度自动编码器网络[60]中的线性互补问题（LCP）[52，54]层）。El Ghaoui等人[69]从广义的well-posed意义上看这种隐含层，并专注于通过拉格朗日方法训练小模型。这些优化层通常作为一个专门的层嵌入到传统的深度架构中，为特定的问题领域定制，其强大的结构假设（如QP[6]）大大限制了其表达能力和可扩展性。

另一个相关的主线将公式（1.1）制定为微分方程，从而代表一个连续的深度神经网络。这一观点首先由LeCun等人[133]进行理论研究，后来的工作提出将ResNet[96]架构解释为常微分方程（ODE）求解器的离散化，以利用其可逆性和架构变体。最近，这种解释被神经ODE方法[45]大大推进，它直接使用黑盒ODE求解器和邻接方法，通过ODE解决方案进行直接微分（因此，与自动微分软件包集成）。具体来说，神经ODE解决了隐藏状态z的以下初值问题（IVP）：

其中fθ是一个参数化的层，可以采取灵活的形式，（即计算这个连续网络相当于把这个层从t=0到T进行整合）。等价地，这些ODEs承认一个隐含的一般解决方案F(x, z⋆, T)=0。这个神经ODE表述后来被改进[67, 121]，并成功地应用于许多场合，如流体动力学[35]和连续生成建模[91]。然而，由于解决高维ODEs的固有挑战，这些方法还不是很有效[67, 77, 121]，也不能扩展到更现实的领域（例如，仅CIFAR-10 32×32图像分类就需要约100次ODE求解器迭代）。

我们在这篇论文中提出的工作对公式（1.1）采取了一种新的方法。虽然将其定性为优化条件会产生基于优化的层；微分方程会产生神经ODE；但我们引入了一个定点方程表述，产生 "无限层"均衡特征状态；即对于一个层fθ，F（z⋆，x）=fθ（z⋆；x）-z⋆=0，因此我们将由此产生的算法称为深均衡模型。有了这样的表述，我们表明，DEQ模型。

1.恰好使用一个这样的独立隐含层fθ作为整个架构（与传统的层堆叠相比）。

2.在众多现实任务中表现出竞争性，甚至更好，如语言建模、图像分类、语义分割、隐性神经表征和光流估计。

3.揭示了长期以来被传统深度学习埋没的众多新特性（如定点循环），使我们能够以内存和计算效率的方式计算深度网络。

我们表明，深度均衡模型体现了一种完全隐含的深度学习架构，与之前的这些探索不同，整个架构只有一个隐含层，并且在最具竞争力的水平和规模上工作。图1.2对比了传统的（显式）深度学习和隐式的DEQ模型，前者堆积了大量的运算符，后者解决了一个底层动态系统来模拟输出。

图1.2：传统的深度神经网络与隐式深度均衡（DEQ）模型。深度均衡模型定义了一个底层动态系统，可以采取任何解算器路径（如牛顿、准牛顿等）导致固定点。

这篇论文首次深入分析了这种新方法的好处、应用、扩展和面临的挑战。我们证明了DEQ模型对隐式建模的性能、可扩展性、效率、灵活性、表示能力等方面带来的重大改进。我们对隐含性的研究为我们提供了一种通过有限的计算对无限复杂的概念（例如，固定点的概念）进行建模的方法，无层的方法提出了一种令人兴奋的深度学习计算的新范式。

1.2 我们的贡献

在本论文的第一部分，我们将讨论多种发现和动机，最终形成深度均衡模型的基本原理（即它们的通用公式）。虽然隐含性之前已经在深度学习中被利用为优化驱动的转化（第1.1节），但我们从现有深度学习的成功（和前提）及其趋势出发：非常深的--可能是无穷层的--神经网络。更具体地说。

1.在第二章中，我们将推导出无限深的神经网络如何能被一个计算层的固定点的均衡网络所表示。我们将为这种单层方法的普遍性提供论据，（重要的是）这种定点计算如何通过使用隐含函数定理（IFT）直接在最终输出中进行区分。我们进一步讨论这对DL训练的前向和后向通道的影响（这将在第五章、第六章和第七章中得到大量的利用。

2.鉴于DEQ模型的一般表述，我们将在第2章和第3章中展示它们如何在大规模的现实环境中涵盖广泛的现代和复杂的层设计（例如，多头自我关注[233]）。在第三章中，我们将研究如何使放弃了深层序列的均衡网络能够代表特征层次结构。我们将在第二章的DEQ构造的基础上进行大幅扩展，引入同步均衡建模；也就是说，我们直接在所有特征尺度上同时优化稳定的表征，并为辅助损失和复合训练程序提供自然接口。

因此，本论文的第一部分将大量强调这些均衡方法的表征能力以及它们与传统深度学习的根本区别。我们希望传递的一个强有力的信息是："你只需要一层"。

在本论文的第二部分，我们将更深入地讨论深度学习的这种隐含观点的含义。由于这些均衡网络将训练过程的前向和后向解耦（即，人们甚至可以只用最终的输出来训练模型），我们将证明这导致了传统神经网络以前没有面临的几个新的挑战和机会。特别是：

第四章将首先讨论均衡方法引入的一些在传统深度学习方法中不存在的新问题，如收敛稳定性和求解器的选择（和成本）。我们将提供一些经验证据，反映DEQ模型如何随着训练的进行而变得越来越不稳定（即越来越 "深"），以及这如何恶化了其他几个问题，同时概述了一个原则，即根据这些模型的隐含性，通过基于正则化的解决方案稳定DEQ模型的动态系统。
深度均衡模型的单层结构可以将这些模型从昂贵的链式规则反向传播过程中解放出来，这些过程构成了传统深度学习的学习开销。在第五章中，我们介绍了近似梯度的概念（又称 "幻影 "梯度或不精确梯度），它使我们能够极其有效地近似上述隐含函数定理（IFT）。我们将从理论上论证这些近似的可行性，这些近似使均衡模型的后向传递速度提高了5倍或几乎是免费的，这是传统神经网络完全不具备的特性。
在并行线程上，这些隐含网络还能使层fθ的内部结构（控制表征能力）与固定点的实际计算方式（影响推理时间效率）脱钩，后者通常是通过Broyden方法[34]等经典技术。在第6章中，我们展示了可以利用这种解耦，并使用一个可以以无监督方式进行端到端训练的定制神经解算器来大幅提高这个固定点的计算。

结合这些关于DEQ模型的讨论，在本论文的第三部分，我们将展示这些见解如何转化为各种应用和扩展（除了第一和第二部分的大规模设置之外）。我们还将在实践中展示DEQ模型在各种数据模式下的一个关键优势：自适应计算。虽然传统的深度网络需要经历一个规定的计算图，而不管输入的复杂性如何，我们表明，均衡方法可以从高度相关的数据中大大受益，并有效地循环计算以摊销成本。有了上述所有的技术：

在第七章中，我们将表明，基于DEQ的方法在内存上和计算上的效率比最好的传统深度网络在光流估计任务上的SOTA性能要高出数倍，同时提高了SOTA性能。我们提出DEQflow作为一个新的框架，与之前的建模工作兼容，并完全取代了现有的递归/滚动程序。
在第八章中，我们将表明这些隐含模型能更好地学习图像、音频、视频和三维模型的隐含神经表征（INR），同时训练时间和内存成本也大大降低。

在第九章中，我们对所有这些贡献进行了总结，同时讨论了一些与深度学习这一新范式相关的有趣的 "老问题"。例如，传统的神经网络是由人脑中的神经元激发的。DEQ模型在任何意义上都不那么 "生物 "吗？再比如，这些动态系统视角的深度学习如何能最好地应用于现实生活中的动态系统？我们在最后一章中对这些问题（以及未来的研究）提出一些见解。

通过这些理论和经验上的探索，我们希望能够提出一种不同形式的深度学习，就像传统上对这一主题的研究一样。层对于深度学习来说是必要的吗？这篇论文认为答案是否定的。或者说，至少它们不是全貌。我们将表明，这些隐性均衡方法是一个重要的研究议程，因为目前的深度学习有一些必须克服的基本天花板，而且DEQ模型在设计上经常更好。

本论文中包含的这些开创性工作挑战了长期以来的观点，即基于层的分层架构是现代深度学习不可或缺的组成部分，并导致了一个新的和快速增长的社区，称为 "隐式深度学习"，以及NeurIPS 2020官方教程 "深度隐式层"[68]。

1.2.1 其他贡献

我们在此也简要总结一下研究生学习期间的其他贡献，这些贡献在论文中没有广泛讨论。许多工作（直接或间接）导致了本论文所关注的隐式深度学习的工作。

序列建模[15, 16] 。虽然递归网络长期以来一直是序列任务的主导力量和默认工具包，但我们重新审视了序列建模的卷积方法。我们提出了卷积和递归架构在众多序列任务（从合成任务到极大规模的任务）中最广泛的系统比较之一[16]。具体来说，我们提炼了现代ConvNets中的最佳实践，如剩余块和扩张，以描述一个简单的时间卷积网络（TCN）。我们的实验结果表明：1）TCN模型的性能大大超过了LSTM和GRU等通用的递归架构；2）RNN的 "无限序列内存 "优势在实践中基本不存在，而TCN表现出比相同容量的递归架构更长的内存。自引入以来，所提出的通用TCN模型由于其各种优点（如：并行性、良好的记忆保持），对现代现实时间序列的建模产生了惊人的影响。并行性、良好的记忆保持性），至今仍在许多领域（尤其是存在极长距离信息的领域）保持着最先进的水平，如语音分离[153, 159]、语音识别[51]、语音增强[182]、基因组学建模[71]、文本分类[111]、唇读[1]、金融时间序列[203, 243]、动态推荐系统[255]、人类轨迹预测[173]，以及更多。

深度学习架构[17, 228] 。我们还介绍了对前沿的深度序列模型的架构特性的研究。在Bai等人[17]中，我们提出了trellis网络（TrellisNet），它是一种特殊的TCN，其特点是权重类型化和直接从输入层进入深层的剩余连接。但另一方面，我们证明了截断的递归网络等同于在其权重矩阵中具有特殊稀疏结构的trellis网络。因此，TrellisNet架构连接了两个主要的、看似不相容的序列模型家族：递归和卷积网络，并允许我们结合两个世界的最佳实践。此外，在Tsai等人的文章[228]中，我们从内核平滑器的角度研究了变形器，并对这些模型的自我注意机制和位置编码的各个组成部分进行了深入剖析。

不对齐的多模态机器学习[227] 。多模态时间序列建模的一个主要挑战是融合来自多种模态（如视觉、声学和文本时间序列）的特征表示，这些特征表示是不同步的，通常需要费力的人工对齐。我们提出了多模态转换器（MulT）[227]，它使用跨模态的注意力来潜移默化地将未对齐的数据流从一种模态调整到另一种模态。这大大降低了对仔细的特征工程的要求（这经常涉及到大量的领域知识），我们表明基于注意力的多模态学习可以比之前的方法持续提高5%-15%。

用于科学计算的深度学习[30, 205] 。我们提出了图形变换器神经网络力场（GTFF）[205]作为一种计算算法，用于直接预测材料系统中分子动力学计算机模拟的原子力。尽管存在精确的方法来计算基本的原子力和行为，但它们也是非常昂贵的，因为应用这种方法需要巨大的计算资源（如每个分子需要几天或几周）。相比之下，我们的基于图形变换器的方法可以快几十万倍，同时几乎不损失精度。这一贡献是作为Kaggle预测分子特性竞赛的一部分[30]，我们的方法在2,737个参赛队中赢得第一名。

成为VIP会员查看完整内容