理解人类推理的深度学习

2018 年 11 月 7 日 论智

来源：Medium

编译：weakish

编者按：Jaley Dholakiya简要概述了深度学习在可解释性推理方向上的进展。

对一个使用深度学习查明患者是否患有多发性硬化的医生来说，模型仅仅给出“是”或“否”并不好。对自动驾驶这样安全攸关的应用而言，仅仅预测会发生碰撞并不够。使机器学习能够清楚地表述给出断言的依据，这是一个紧迫的需求。Devi Parikh、Druv Batra的视觉问答工作，李飞飞团队在理解视觉关系方面的工作，都属于这一方向。但这离学习推理结构还很远。这篇博客文章将讨论如何在CNN和知识图谱中纳入推理。

长期以来，推理都被理解为一组归纳和演绎。基于抽象符号逻辑方面的研究，John Venn在1881年标准化了这些概念。它像是IQ测试，由A可得B，由B可得C，故由A可得C，等等。可以把它想成一组逻辑等式。

然而，1975年L.A. Zadeh提出了近似推理（approximate reasoning）的概念，替代了固定的归纳/推理的思路。近似推理同时引入了语言变量（linguistic variable）这一术语（年龄=年轻，很年轻，相当年轻，年老，相当老，很老）。与语言变量相对的是数值变量（年龄=21，15，19，57，42，47）。语言变量是通过单词构建模糊逻辑的基础。近似推理标准化了在推理中考虑模糊性和歧义性的方法。

例如，在我们的日常语言中，我们不会说“我正和一个身高173厘米的21岁男性说话”，而是说“我正和一个高个小伙说话”。因此，模糊逻辑考虑了构建推理模型的论点的模糊性。

尽管纳入了模糊性，它仍未能捕捉到人类推理的精髓。有一种可能的解释是，除了简单的演绎（“A不是B，B是C，意味着A不是C”），人类推理具备一个压倒性的内隐推理元素。无需经过上述步骤，人类瞬间可以做出演绎。有时候这是本能。如果你养宠物狗，那么你知道从它嘴里夺走玩具会发生什么。

人类显示了一种不同寻常的能力，可以随着时间的推移而抽象、改进内隐推理。基于统计学习的语言模型正是内隐学习的一个例子。它并没有使用任何规则、命题、模糊逻辑，而是通过时间模型学习长期依赖。你可以将它想象成手机中的自动补全特性。你要么训练一个推理结构来预测最符合逻辑的词组，要么让统计学方法预测一个概率上恰当的补全词组。

这类模型无法处理罕见单词或罕见图像，这是因为罕见性导致模型遗忘了相关信息。这类模型也不能概括一个概念。而人类具有这一能力。例如，如果我们看到一种牛，那么我们能够推广所学到所有其他种类的牛上。如果我们听过某句话，那么我们能够辨认出这句话不同语调、口音、节奏的变体。

不管过去的知识有多么不相关，人类都可以加以利用。借鉴人类这一能力，单样本学习开辟了学习罕见事件的道路。如果一个人有生以来只见过方块和三角形，然后第一次看到一头鹿，这个人不会仅仅将它记忆为一张图像，而会下意识地储存它和方块、三角形的相似性。对单样本学习而言，记忆库是必不可少的。基于记忆和核心模型的交互，模型可以更高效地学习，更快地推理。

我知道你也许感到单样本这一术语很费解。所以我们将给出一个基于ImageNet进行单样本学习的简单例子。现在，让我们把ImageNet的1000个分类（猴子、人类、猫，等等）想象成真人秀的评委。每个评委根据选手是一只猴子、一个人等的可能性给出评分。

让我们假设有一个模型没有训练过的第1001分类。如果我从这个分类中取两个样本，没有一个评委能够给出自信的评分，但如果我们查看这1000个评委给这两个样本的评分，那么我们有可能从中找出相似性。例如，加拉巴哥蜥蜴从鳄鱼和蜥蜴那里得到的票数可能最高，超过任何其他分类的评委。评委一定会给这两个加拉巴哥蜥蜴类似的评分，尽管加拉巴哥蜥蜴并不在分类列表中，训练数据中甚至没有一张加拉巴哥蜥蜴的图像。这种基于特征相似性的归类是单样本学习最简单的形式。

Santoro最近在记忆增强神经网络上的工作，通过可微记忆操作自动化与记忆的交互，这种做法借鉴了神经图灵机。

所以网络学习特征向量，和未见分类一起保存于可微记忆块之中。这一表示不断发展，给了神经网络学习“如何快速学习”的能力，这正是我们将其称为元学习的原因。就这样，神经网络的行为开始变得更像人类了。人类联系过去和现在的能力极强。例如，即使我没见过这一奇异的外星生物，我仍然可以说它像是一个长着牛角的狒狒或者大猩猩。

到目前为止，我们讨论的关键点是：

基于模糊逻辑的单纯的外显推理无法捕捉人类推理的精髓。
传统单样本学习这样的内隐模型，自身无法从罕见事件学习、概括。需要记忆增强。

增强记忆的结构可以是cho和sutskever所用的LSTM，也可以是santoro最近的工作中使用的动态查询表。动态查询表可以进一步加强，基于外置知识图谱，比如Bengio实验室的Sungjin提出的神经知识语言模型。

如果需要补全不完整的句子，我可以使用简单的序列到序列模型。但由于罕见命名实体的关系，序列到序列模型的表现不会很好。模型原本很少有机会听到“Crazymuse”。但是，如果我们学习从知识图谱获取命名实体，那么我们就可以使用罕见的命名实体补全句子，只要我们能够识别主题和联系，还有应该是从LSTM获取信息还是从知识图谱信息。这种组合知识图谱和神经网络的方法真的很棒。

就推理和推断而言，这带来了大量可能性，因为知识表示（主题，预测，目标）让我们可以进行更复杂的推理任务，就像结合外显模糊逻辑和内隐统计学习。

从知识图谱获取信息，加上注意力机制可能导向可解释模型。

SQUAD这样的问答数据集帮助人们在可推断语言模型上取得了显著进展。最近视觉问答方面的工作则使用Visual Genome、CLEVR、VRD这样的数据集将图像转换为本体，并学习视觉关系以改善场景理解和推断。

不过，场景理解下的问答进展仍有一些局限：

使用LSTM作为基于记忆的模型以及学习视觉关系的注意力转移无疑改善了对环境的理解和概括能力。但学习过程和改善推理的权威形式方面仍有许多需要改进的地方。
结构中拼命使用卷积神经网络，使得模型难以为人类所理解。这样的架构也许很适合基本的分类问题和领域特定的生成任务，但并不是为推理设计的。相反，如果我们能像Tom Mitchell提出的Never-Ending Learning那样，直接学习更丰富的知识图谱中的多模实体表示和本体，那么我们就可以学习跨领域推理结构，并迫使模型更好地表达其对实体关系的理解。

我梦想有那么一天，机器学习推理。到了那一天，我们可以询问机器：“你为什么觉得这个人有多发性硬化”，接着机器可以找到表述它的理据的词汇。我知道Naftali在信息瓶颈原则方面的工作和Mitchell的Never-Ending Learning，但我们缺少的是主动学习模糊逻辑提供的基本推理结构上的抽象。它可以由基于奖励的学习最佳策略驱动，也可以由基于单样本学习原则的某种验证驱动，也可以由某种基于半监督图模型的方法驱动。但是，不管驱动因子是什么，模型需要学习改善推理。模型需要学习将推理引擎和来自声音或图像的丰富特征表示联系起来，也许这甚至会促进类似策略迭代的“改善表示，改善推理，改善表示，改善推理”的循环。最重要的是，模型应该能够向人类表述其抽象，例如，“你好，人类，我觉得猫很可爱，因为它们的眼睛和婴儿的眼睛很像，充满了生机，和你单调的日常完全不同”。

直到那一天，让我们坚持训练模型，同时坚持梦想那样的模型运行的那一天。因为梦想化为现实的速度比你想象的要快！