Central to the success of artificial neural networks is their ability to generalize. But does neural network generalization primarily rely on seeing highly similar training examples (memorization)? Or are neural networks capable of human-intelligence styled reasoning, and if so, to what extent? These remain fundamental open questions on artificial neural networks. In this paper, as steps towards answering these questions, we introduce a new benchmark, Pointer Value Retrieval (PVR) to study the limits of neural network reasoning. The PVR suite of tasks is based on reasoning about indirection, a hallmark of human intelligence, where a first stage (task) contains instructions for solving a second stage (task). In PVR, this is done by having one part of the task input act as a pointer, giving instructions on a different input location, which forms the output. We show this simple rule can be applied to create a diverse set of tasks across different input modalities and configurations. Importantly, this use of indirection enables systematically varying task difficulty through distribution shifts and increasing functional complexity. We conduct a detailed empirical study of different PVR tasks, discovering large variations in performance across dataset sizes, neural network architectures and task complexity. Further, by incorporating distribution shift and increased functional complexity, we develop nuanced tests for reasoning, revealing subtle failures and surprising successes, suggesting many promising directions of exploration on this benchmark.
翻译:人造神经网络成功的核心在于其普及能力。 但是,神经网络的普及主要依赖于非常相似的培训实例( 模拟) 吗? 或者神经网络能够以人类智能的推理为主, 如果是, 在多大程度上? 这些仍然是人工神经网络的基本开放问题。 在本文件中, 作为回答这些问题的步骤, 我们引入了一个新的基准, 指向值检索( PVR) 来研究神经网络推理的局限性。 光电网络的成套任务基于间接性推理, 这是人类智能的标志, 第一阶段( 任务) 包含解决第二阶段( 任务) 的指示。 在光电公司中, 这是通过任务投入的一部分作为指针, 指示不同的输入地点, 构成输出。 我们展示了这一简单规则, 以在不同输入模式和配置中创建一套不同的任务。 重要, 间接化使任务因分布变化和功能复杂性增加而系统化的难度不同任务。 我们对功能复杂性( 任务) 进行详细的实验性研究, 将功能复杂性( 任务) 分析变化变化, 分析我们的数据结构的大幅变化, 分析 分析 分析 和 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析 分析