当环境发生变化,使我们难以实现目标时,我们必须适应。如果我们只能依靠进化来寻找更适合的基因程序,这将是一个极其缓慢的过程。幸运的是,进化“发现”了学习机制,使我们能够利用经验进行适应,形成新的行为来完成当前任务。从表面上看,学习就是这样一个过程:我们变得更擅长执行某项任务。然而,学习往往是缓慢的。而我们却经常处于新的情境之中,不得不重新适应。所幸的是,任务很少完全陌生,而令人惊讶的是,学习某些相似的任务会更容易。在某种程度上,我们能够在不同任务之间发现共通的结构,进而形成泛化能力,并随着时间推移优化我们的学习策略。
本论文旨在研究这些能力如何在神经网络中得以实现。具体来说,我们探讨元学习(meta-learning),即在经历大量具有共享结构的任务过程中,提升学习过程本身的能力。同时,我们还研究如何利用任务之间特定的一种结构形式:组合性(compositionality),即通过一小组基本构件的重组来生成大量不同的任务组合。我们首先回顾本文具体贡献的数学基础,详细阐述如何将神经网络中的元学习形式化为分层优化问题或序列建模问题。此外,我们定义了一个任务族具备组合性的含义,并基于此形式化地提出**组合泛化(compositional generalization)**的目标。
在建立了这些基础之后,论文由三部分组成,旨在深化我们对神经网络中元学习与组合泛化的理解。 第一部分中,我们提出了一种简单但精确的元学习算法,基于双层优化(bilevel optimization)。与此前方法需要反向计算时间梯度或二阶导数不同,我们的方法仅需运行两次学习过程,通过对比两次结果并应用局部的元可塑性规则,即可获得元梯度。
第二部分中,我们研究了如何通过模块化结构的神经网络架构进行元学习,从而捕捉任务族中的组合结构。我们从理论上刻画了在何种条件下,超网络(hypernetworks)——即为另一个神经网络生成权重的神经网络——能够保证实现组合性泛化。我们在一系列实验中验证了这些条件,显示在满足这些条件的情况下,模块化(modular)而非单体式(monolithic)架构可以学习能够组合泛化的策略。
第三部分中,我们研究了在 Transformer 中的元学习,具体是在上下文中处理组合任务的能力。我们在形式上建立了 Transformer 的多头注意力机制与超网络之间的联系。这一联系表明 Transformer 可能通过一种隐式超网络的潜在编码(latent code)来重用和重组操作。我们在两个抽象推理任务中实证验证了这一假设,发现所学网络在面对新组合任务时使用的子任务函数与其潜在编码之间存在结构化的功能关系。 总体而言,我们的研究揭示了神经网络在元学习和组合泛化方面的潜力。最后,我们展望了这一研究方向的若干前沿问题,特别是在机器学习与神经科学都在迅猛发展的背景下,神经网络研究所面临的机遇与挑战。