尽管深度学习取得了显著的成就,但它仍是一个年轻的领域。就像许多科学学科的早期阶段一样,它的特点是发现新现象、临时的设计决策以及缺乏统一和组合性的数学基础。从实现反向传播的复杂性,到不断增长的神经网络架构动物园,再到新的、尚未被充分理解的现象,如双重下降、规模定律或上下文中学习,深度学习中很少有统一的原则。
本论文基于范畴论的语言,为深度学习开发了一种新的数学基础。我们开发了一个新框架,这个框架是a) 端到端的,b) 统一的,并且c) 不仅仅是描述性的,而且是规范性的,意味着它适合在具有足够特性的编程语言中直接实现。我们还系统化了许多现有的方法,将文献中许多现有的构造和概念归于同一体系下。 在第一部分,理论部分,我们识别并模型化了深度学习系统的两个主要属性:它们是参数化的和双向的。我们扩展了之前定义的actegories和Para的构造来研究前者,并定义加权光学来研究后者。结合它们产生了参数化加权光学,一种人工神经网络的范畴模型,以及更多:第一部分中的构造与许多其他类型的双向过程,如贝叶斯更新、值迭代和博弈论有着密切的联系。
第二部分证明了第一部分中的抽象,将它们应用于建模反向传播、架构和监督学习。我们提供了一个透镜理论公理化的微分,不仅覆盖平滑空间,还包括布尔电路的离散设置。我们调研现有的,并开发新的神经网络架构的范畴模型。我们形式化了优化器的概念,最后,将所有现有的概念结合起来,为监督学习提供了一个统一和组合性的框架。