目前的机器学习由深度神经网络驱动,擅长从大量数据和训练信号中提取预测模式。在过去的七年中,在将这种能力扩展到推理领域方面有了稳步的发展——从现有的知识库中有意地推导出新的知识的能力。本教程提供了一个有组织的知识体系,涵盖了围绕机器学习推理的最新发展,重点是可微分神经网络架构。我们想要回答的主要问题是,我们是否能学会从数据中进行推理,就像我们学会使用神经网络进行预测一样?在本教程中,我们将展示如何通过使用动态神经网络实现这一点,动态神经网络的计算图是由给定的数据和查询动态组成的。这里的查询是任意的,例如,在语言形式中。数据和域具有跨越空间和时间的结构,也就是说,数据元素通过关系或隐式或显式地相互链接。涵盖的主题分为两部分:理论和应用。理论部分包括推理的双系统解释、神经记忆、非结构集和超结构图的推理以及神经符号整合。应用部分包括机器阅读理解中的神经推理、视觉问答和组合推理。
第一部分:理论(180分钟)
本部分进一步分为六个子主题:概念、双过程理论、神经记忆、对集合的推理、对图的推理和神经符号的整合。
第1讲:神经机器推理的概念(30分钟)
在这一部分中,我们将回顾学习和推理的关键概念,以及这两种智能是如何相互作用的。特别地,我们将从学习推理的正式框架开始,其中的任务是确定数据是否包含结论[23]。然后,我们展示了如何在这个框架下重新构建问题回答和大多数有监督的机器学习任务。然后,我们将解释现代神经网络如何在这个框架中作为学习和推理的基础机制。其中一个关键因素是注意力,这在最近的工作中有所体现。我们还讨论了推理如何也可以被视为条件计算的实例,其中计算图是由查询与可用数据动态共同决定的。这种方法的一种极端形式是程序合成,即从数据上下文中的查询自动生成一个谓词链接的程序,程序的执行将提供答案。
**第2讲:双推理系统(30分钟) **
我们将简要回顾一个已建立的人类推理框架,即双过程理论[11],或者通俗地称为快与慢思维[22]。近年来,这个话题在人工智能领域非常重要,例如,在诺贝尔奖得主卡尼曼和图灵奖得主约书亚·本吉奥出席的AAAI 2019小组讨论中所讨论的。特别是,快速思考过程,也被称为系统1,通常是并行的、反应的和特定领域的,它相当于目前大多数深度学习模型。另一方面,缓慢的思考过程,也被称为系统2,是顺序的、审慎的和领域不可知的。我们将解释系统2如何在核心推理形式中发挥作用,包括构成推理、关系推理、时间推理和因果推理。最后,我们将讨论系统1和系统2是如何相互作用的。
**第三讲:神经记忆(30分钟) **
在这一部分中,我们将讨论推理过程中最重要的一个方面:记忆[12]——一种允许我们记忆、检索、操纵信息和模拟看不见的场景的心理能力。我们将涵盖三个不同的概念,这对高阶推理至关重要:实体的内存,关系的内存和程序的内存。实体的神经记忆已经被广泛研究,这属于记忆增强神经网络(memory - augmented Neural Networks)的范畴[18,47,49]。很少有人研究,但对高阶推理极其重要的是关系记忆,它允许我们显式地存储、检索和操纵在长谓词链接过程[24]中已知的和新形成的关系。我们将描述如何使用张量[28,42,45]或图[37]来实现关系记忆。在这些模型中,注意力是利用关系建模的常见操作。最后,我们将解释最近一个被称为程序存储器的强大概念是如何对条件计算和自动神经程序合成(推理背后的潜在计算过程)至关重要的。本部分介绍了两种程序存储器的方法:模块化神经网络[2]和存储程序存储器[27]。
第4讲: 非结构化集的推理(30分钟)
最近许多涉及神经推理的工作都可以表述为在非结构集上进行推理。在这些设置中,我们有一组查询词,以及知识库中的一组项目(可以是文本中的单词,也可以是图像中提取的视觉特征)。推理的任务是构建一个序列的过程,在这两个集合中的项目被迭代处理并以组合的方式相互作用。这可能是一个迭代条件作用过程[39],也可能是构成和注意力的循环模式[17,21]。
第五讲: 图推理(30分钟)
关系结构已经被证明对推理至关重要[15,50],这些结构可以方便地用图[5]表示。这导致了图推理,当推理由图上的操作构成或支持时,就会发生图推理。在这一部分,我们将解释图神经网络如何作为关系推理的基础主干,无论是在空间还是在时间[6]。我们将涵盖基本概念,包括节点嵌入、关系网络[43]和消息传递;以及诸如查询条件图构造[29]和图动力学[38]等高级主题。
第6讲:混合神经符号推理(30分钟)
不与符号方法[14]的联系,神经推理理论是不完整的。这是因为符号方法很容易用于高级逻辑推理,这在许多NLP和数学推理问题中非常重要。此外,符号方法似乎更自然地处理重要问题,如系统泛化,纯神经网络还不是很有效[3,13]。在这个混合神经-符号推理的子主题中,我们将涵盖最近的工作,包括神经模块网络[19,53]和逻辑模型和神经网络的集成[14]。
参考文献: [1]Ralph Abboud, Ismail Ilkan Ceylan, and Thomas Lukasiewicz. Learning to reason: Leveraging neural networks for approximate dnf counting. AAAI, 2020. [2]Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and Dan Klein. Neural module networks. In CVPR, pages 39–48, 2016. [3]Dzmitry Bahdanau, Shikhar Murty, Michael Noukhovitch, Thien Huu Nguyen, Harm de Vries, and Aaron Courville. Systematic generalization: what is required and can it be learned? ICLR, 2019. [4]Yunsheng Bai, Derek Xu, Alex Wang, Ken Gu, Xueqing Wu, Agustin Marinovic, Christopher Ro, Yizhou Sun, and Wei Wang. Fast detection of maximum common subgraph via deep q-learning. arXiv preprint arXiv:2002.03129, 2020.