题目: Backward Feature Correction:How Deep Learning Performs Deep Learning
摘要: 一个110层的ResNet如何使用相对较少的训练实例和较短的训练时间来学习一个高复杂度的分类器?我们提出了一个理论来解释这方面的分层学习。我们将层次学习称为学习者通过将一个复杂的目标函数分解成一系列更简单的函数来减少样本和时间复杂度。将随机梯度下降法(SGD)应用于训练目标,形式化地分析了多层神经网络如何高效、自动地进行分层学习。
在概念方面,我们存在,我们所知,第一个理论结果表明有很深的神经网络仍然可以样品和时间效率在某些层次学习任务,当没有已知的无等级算法(如内核方法、线性回归功能映射,张量分解,稀疏编码,和他们简单的组合)是有效的。我们建立了一个新的原理,称为向后特征校正,我们认为这是理解多层神经网络中的层次学习的关键。
在技术方面,我们将展示为二进制分类、回归,甚至对每一个输入维数d > 0,有一个由度组成的概念类ω(1)多元多项式,利用ω(1)层神经网络作为学习者,SGD可以在多(d)时间内学习任意目标函数,使用多边形(d)样本进行任意1个多边形(d)回归或分类错误,通过学习来表示它的成分ω(1)层的二次函数。相反,我们提出下界说几无等级的学习者,包括任何内核方法,神经tan核方法,必须遭受超级多项式dω(1)样本或学习时间复杂度函数这个概念类甚至任何d^(0.01)错误。