主题: The resurgence of structure in deep neural networks
摘要: 使用深度神经网络的机器学习(“深度学习”)可以直接从原始输入数据中学习复杂的特征,从而完全消除了从学习管道中提取的手工制作的“硬编码”特征。这导致在多个(以前是脱节的)问题域中实现了最先进的性能,包括计算机视觉,自然语言处理,强化学习和生成建模。这些成功案例几乎都与大量具有标签的训练示例(“大数据”)的可用性并驾齐驱,这些示例具有简单的网格状结构(例如文本或图像),可通过卷积层或循环层加以利用。这是由于神经网络中的自由度数量众多,使得它们的泛化能力容易受到诸如过度拟合之类的影响。但是,在许多领域中,广泛的数据收集并不总是合适,负担得起甚至不可行的。此外,数据通常以更复杂的结构进行组织-大多数现有方法都将简单地丢弃这些结构。在生物医学领域,这类任务的例子很多。与可用于任何给定临床研究的少量受试者,或通过相互作用网络指定的蛋白质之间的关系。我假设,如果深度学习要在这样的环境中发挥其全部潜能,我们需要重新考虑“硬编码”方法-通过结构归纳将关于输入数据中固有结构的假设直接整合到我们的体系结构和学习算法中偏见。在本文中,我通过开发三种注入结构的神经网络体系结构(对稀疏多峰和图结构化数据进行操作),以及图神经网络的结构知悉学习算法,直接证明了这一假设,证明了传统基线模型和算法。