尽管在深度学习方面已经取得了巨大的实践进展,但我们对是什么使深度学习工作得很好以及为什么这样做缺乏清晰的理论理解。在本文中,我们采用“自然科学”的方法来构建深度学习的理论。我们首先确定在跨越各种不同背景的实际深度网络中出现的各种经验属性。然后,我们讨论了这些实证发现可以如何用来通知理论。具体而言,我们证明:(1)与监督学习相比,经过自监督学习训练的先进深度网络尽管过度参数化,但在特定条件下仍能实现有限的泛化差距。(2)具有相似性能和架构的模型通常会收敛到相似的内部表示,即使它们的训练方法有很大的不同(例如:监督学习和自监督学习)(3)插值分类器服从一种分布泛化形式——它们从训练分布中收敛到一种条件采样器类型。(4)深度网络的数据扩展特性对训练数据集的结构和噪声水平的变化具有鲁棒性。
https://dash.harvard.edu/handle/1/37372168
我们的发现强调,尽管缺乏最坏情况的保证,深度网络隐含地以可预测的、结构化的方式运行,从而为未来的理论分析奠定了基础。