【导读】深度学习革新了很多应用,但是背后的理论作用机制一直没有得到统一的解释。最近来自谷歌大脑和斯坦福的学者共同撰写了深度学习统计力学的综述论文《Statistical Mechanics of Deep Learning》,共30页pdf,从物理学视角阐述了深度学习与各种物理和数学主题之间的联系。
最近,深度神经网络在机器学习领域取得了惊人的成功,这对它们成功背后的理论原理提出了深刻的疑问。例如,这样的深度网络可以计算什么?我们如何训练他们?信息是如何通过它们传播的?为什么他们可以泛化?我们如何教他们想象?我们回顾了最近的工作,其中物理分析方法植根于统计力学已经开始提供这些问题的概念上的见解。这些见解产生了深度学习与各种物理和数学主题之间的联系,包括随机景观、旋转玻璃、干扰、动态相变、混沌、黎曼几何、随机矩阵理论、自由概率和非平衡统计力学。事实上,统计力学和机器学习领域长期以来一直享有强耦合交互作用的丰富历史,而统计力学和深度学习交叉领域的最新进展表明,这些交互作用只会进一步深化。
概述
具有多层隐含层(1)的深度神经网络在许多领域都取得了显著的成功,包括机器视觉(2)、语音识别(3)、自然语言处理(4)、强化学习(5),甚至在神经科学(6、7)、心理学(8、9)和教育(10)中对动物和人类自身的建模。然而,用于获得成功的深度神经网络的方法仍然是一门高度熟练的艺术,充满了许多启发,而不是一门精确的科学。这为理论科学提出了令人兴奋的挑战和机会,以创建一个成熟的深度神经网络理论,该理论强大到足以指导在深度学习中广泛的工程设计选择。虽然我们目前离这样成熟的理论还有很长的距离,但是最近在统计力学和深度学习交叉领域出现的一批研究已经开始为深度网络的学习和计算提供理论上的见解,有时还会提出新的和改进的方法来推动这些理论的深入学习。
在这里,我们回顾了建立在统计力学和机器学习相互作用的悠久而丰富的历史基础上的这一工作体系(11-15)。有趣的是,正如我们下面所讨论的,这些工作在统计力学和深度学习之间建立了许多新的桥梁。在本介绍的其余部分中,我们将为机器学习的两个主要分支提供框架。第一个是监督学习,它涉及到从例子中学习输入-输出映射的过程。第二种是无监督学习,它涉及到学习和挖掘数据中隐藏的结构模式的过程。有了这两个框架,我们将在1.3节中介绍本综述中讨论的几个深度学习的基本理论问题,以及它们与与统计力学相关的各种主题的联系。