深度神经网络可以解决多种学习问题,但前提是有大量的数据可用。对于很多问题(如医学成像),获取大量标记数据的成本很高,因此提高深度学习方法的统计效率是非常必要的。在这篇论文中,我们探索了利用对称性来提高卷积神经网络从相对较小的样本中泛化的能力的方法。
https://dare.uva.nl/search?identifier=0f7014ae-ee94-430e-a5d8-37d03d8d10e6
我们通过经验论证并证明,在深度学习的背景下,学习等变表示比学习不变表示更好,因为不变表示在网络中过早丢失了信息。我们提出了一组越来越一般的群等变卷积神经网络(G-CNNs)序列,适应于各种空间的特殊对称性。具体来说,我们提出了用于平面图像和体积信号的旋转平移等变网络,用于分析球形信号如全球天气模式和全方位图像的旋转等变球面CNN,以及用于分析一般流形信号的规范等变CNN。
我们已经评估了这些网络在视觉和医学成像中的图像分类和分割、三维模型分类、极端天气事件检测、量子化学和蛋白质结构分类等问题上的能力。我们全面地证明,G-CNNs在表现出对称性的问题上优于传统的平移等变CNN。
在第二部分中,我们提出了G-CNN的一般数学理论。该理论将卷积特征空间描述为流形上的域空间,即相关向量束的部分空间。对称被描述为通过自同构作用于主束上的群,网络的层被描述为场空间之间的线性和非线性等变映射。通过使用一种通用的数学语言,建立了与理论物理(特别是规范理论)的类比。我们证明了一般情况下,类卷积映射产生于对称原理,特别是在第一部分中使用的每个广义卷积都是从对称原理中恢复的,作为最一般的一类线性映射,它与特定的一组对称是等价的。