AI领域的蝙蝠侠大战超人：LeCun与Manning如何看待神经网络中的结构设计

2018 年 5 月 2 日 AI科技评论 高云河

AI 科技评论按：近日，深度学习三驾马车之一的 Yann LeCun 教授与斯坦福大学 NLP 掌门人 Christopher Manning 教授共同出席了斯坦福 AI 实验室所举办的 AI 沙龙，一同讨论了关于「什么是我们应该加入到深度学习系统中的先验知识」的话题。尽管两位教授对此话题有着不同的观点，但是大牛之间思想的碰撞总能带给大家很多启发。

沙龙中所讨论的主题是目前 AI 研究中很重要的一个问题：神经网络中的结构设计，以及这些结构是如何与某些假设和归纳性先验知识相对应的。事实上，去年就有研究者将「语言结构的回归」作为 2017 年四大 NLP 深度学习研究趋势之一。

Manning 教授提倡将更多的语言结构融入到深度学习系统中。而 LeCun 则认为简单而强大神经网络结构就能够执行复杂的任务，而不需要大量针对特定任务的特征工程方法。出于这个原因，两个人之间的学术理念有很大的分歧。对此，一个 Twitter 上的评论认为，他们两个就是 AI 领域中的蝙蝠侠大战超人。

LeCun：「他是说你是超人还是我是超人？」

然而，LeCun 和 Manning 之间互相认同的地方可能超出大家的预期。LeCun 最著名的贡献（卷积神经网络）是完全基于先验知识的：图像处理系统应该具有平移不变性。这个基本假设也体现在了卷积神经网络的结构设计中（权值共享）。而对于 Manning 而言，他曾经公开表示，深度学习的复兴对于 NLP 来说是一件好事。

尽管两位教授在这次讨论中得到了很多共识，但是同样也存在很多分歧。完整内容可以观看讨论视频：https://youtu.be/fKk9KhGRBdI 。下面 AI 科技评论编译了整个讨论中出现的主要话题。

结构：必要的善，还是必要的恶

在 Manning 和 LeCun 的开场发言中，两个人就确立了主要分歧。

Manning 认为结构是「必要的善」（necessary good），他提出我们应该对网络结构设计持积极的态度。相比于没有结构设计的系统，一个精心设计的系统能够从更少的数据中学到更多的知识，并且能够在更高的抽象层次上学习。

相反，LeCun 将结构描述为「必要的恶」(necessary evil)，他警告说：使用结构需要我们做出某些假设，而这些假设总会在某些数据上是错误的，而且可能在不久的将来过时。同时还举例说，ConvNet 可能在 10 年之内就会过时。

尽管存在分歧，但是我们应该注意到，LeCun 和 Manning 至少同意结构是「必要的」，尽管他们对这种必要性持相反的态度。

Manning 认为加入更多结构设计是正确的，而且有是有道理的，比如，语言本质上就是递归的，因此 NLP 系统的结构也应该如此！比如，递归神经网络（Recursive Neural Network，也叫做 Tree-RNN）在 NLP 中取得了成功，它就提出了递归语义合成性作为先验知识。然而，Manning 也承认，在实践中很难做出正确的结构假设，同时这些假设也不总是能转化为性能提升。

LeCun 对结构设计的理想化程度则低得多。在讨论过程中，他多次提到各种类型的结构（比如，残差连接，卷积等），认为它们仅仅是为了网络能够优化到足够工作的程度所需的「元级基础」（meta-level substrate）。他认为，一个没有任何结构限制的类似网络结构也可以很好的工作，只是可能需要更长时间的训练。

当前 AI 的限制因素

LeCun 和 Manning 都注意到了目前 AI 研究在整个 AI 发展的历史轨迹中所处的位置。在过去的几十年里，基于众多先验知识的方法已经过时，目前的深度学习研究更倾向于将严格监督端到端学习视为主导范式（由大数据和丰富的计算资源所支持）。

LeCun 和 Manning 都一再强调这种范式的局限性，例如在记忆，计划，迁移学习，世界知识和多步推理方面都存在问题。同时他们都对目前通过结构设计以解决这些问题的方法表达了积极态度。

然而，Manning 更进一步，断言现代深度学习的大数据大计算范式实际上已经「颠覆了计算语言学领域」并且「偏离了轨道」。他认为，如果你能够得到大量的数据和计算资源，你就能够通过构建简单但效率低下的系统获得成功，而这个系统只需最表层的「最近邻学习」。这阻碍了研究人员建立良好的学习系统：使用较少的数据，在较高抽象层次学习表示。他说这对整个领域都是不利的。而解决这个问题的答案就是，加入适当的结构，使系统能够在正确的抽象层次上有效的学习概念。

尽管两位教授有分歧，但是并不确定 LeCun 究竟是如何认为 Manning 声称的深度学习在某种程度上「颠覆了这个领域」的。然而，LeCun 确实同意深度学习缺少一些基本的原理（想了解更多，请参阅他的 CVPR 2015 的演讲「深度学习有什么问题？」，后台回复「 CVPR 2015」获取演讲 PDF）。

无监督学习的重要性

尽管讨论涉及了当今人工智能技术的许多核心局限性，但其中有一个特别迫切的且特殊的挑战，也就是无监督学习，或者至少是少监督学习。

两位教授都举了一些例子：人类能够进行小样本学习（few-shot learning），人类能够通过观察了解世界，而无须任务或者外部奖励。并且人类还可以在没有明确监督的情况下学习具有离散结构的抽象概念（例如对象分类）。

他们认为，这些无监督学习能力对 AI 的进步至关重要。但是，在结构应该在无监督学习革命中扮演什么角色的问题上，LeCun 和 Manning 产生了分歧。

Manning 认为加强结构是解锁无监督学习的关键。他说，如果我们为机器提供适当的结构工具，以在适当的抽象层级上学习，那么他们就能够在较少的监督下学习。

相反，LeCun 认为，如果能够进行无监督学习，那就不需要使用结构。比如，LeCun 举例说人类的大脑并没有任何先天的卷积结构，大脑并不需要这种结构，因为作为一个高效的无监督学习器，即使没有卷积权值共享的约束，大脑同样可以学习大量相同的低级图像特征（如方向边缘检测器）作为 ConvNet。他总结说，对于我们目前的神经网络架构使用更多的结构可能是徒劳的，因为一旦我们开发出了更好的无监督学习方法，那些结构设计就会过时。

两者观点之间的差异很微妙，也许就是蛋生鸡还是鸡生蛋的区别。Manning 认为结构是实现无监督学习的关键，而 LeCun 则将无监督学习当作学习结构的一个长期目标。

将结构作为硬连接的先验（hard-wired prior），还是从环境中学习

在讨论过程中，很明显至少有两种类型的「结构」：作为先验嵌入到模型中结构（例如，ConvNet 中的卷积假设，或者递归神经网络中的递归假设），和通过机器动态学习和计算出的结构（比如，通过胶囊网络中动态路由计算出的结构，或注意力机制计算的关注区域）。两者之间没有一个简单的区分方法，Manning 和 LeCun 在 ConvNet 层级结构应该属于哪种结构的问题上持有不同的意见。

LeCun 一再反对硬连接先验（hard-wired prior），它认为所有结构都应该从环境中学习。虽然 Manning 同意应该从环境中学习到很多结构，但他也认为我们（AI 系统的设计者）应该在提供这种结构方面起到一定的作用。虽然我们不应该回到人类设计复杂的系统（如 Chomskyan 文法）的时代，但他说，我们应该为机器提供正确的「基础和脚手架」以更有效地学习。

使用奖励作为先验

LeCun 和 Manning 认为理想情况下，奖励应该是天生的，也就是说，正确地理解世界就是它自己的奖励。比如，人类不断的构建自己的世界模型，并根据外部观察对其进行修改。

相比之下，今天大多数机器学习系统从外部提供的与特定任务密切相关的奖励中学习。Manning 认为目前这些目标函数定义的太过肤浅，他指出：如果将目标函数定义在如此低的水平，我们将永远不会建立能够学习抽象概念的 AI 系统。LeCun 认为奖励需要是本质的，丰富的，而不是从特定任务的奖励中学习，AI 系统应该通过不断预测「一切事物」来学习，而不需要训练标签或者任务定义。