像人类一样理解并预测物理世界有多难？新的机器学习方法正在攻克该难题

2017 年 12 月 20 日 DeepTech深科技

年度订阅用户可加入科技英语学习社区，每周科技英语直播讲堂，详情请查看“阅读原文”

特别感谢 MIT 博士生吴佳俊对本文的贡献

麻省理工学院（MIT）脑和认知科学系教授约书亚·特南鲍姆 (Josh Tenenbaum) 是学校脑、思维、机器研究中心 (Center for Brains, Minds, and Machines) 智能发展研究方向的主任。这一跨学院、交叉学科的科研平台致力于探索、解释和复制人类的智能。

在今年的神经信息处理系统大会 (NIPS) 上，特南鲍姆与他的博士生吴佳俊发表了四篇论文，探讨了智能体需要哪些基本认知能力才能够探索世界，其中就包括辨别不同的物体，并且推断该物体将会对施加于其的物理量做出怎样的反应。

研究人员相信，通过一步步构建拥有上述能力的计算机系统，他们最终能够帮助搞清楚关于人类在智力发展各个阶段是如何使用哪些信息来处理问题的。在这个过程中，研究人员甚至可能得到一些用于研究机器人视觉系统的新思路。

“所有这些研究项目的共同主题，是让计算机真正地试着感知物理”，特南鲍姆认为，“要做到这一点，计算机首先要恢复物体的完整三维形状，并且分析这些物体身处的场景以及它们的关系，还有其物理特性比如质量和摩擦力，之后才能推断这些物体将如何随时间推移而变化。佳俊的四篇论文讨论了整个问题。其中，三篇论文讨论了如何能从视觉和听觉数据中推断出物体的物理结构，另一篇则讨论了如何在上述数据的基础上预测物体的表现。结合在一起，我们可以开始构建一些计算模型来更好地描述人类对于物理世界的认知。”

双向而行

把所有四篇论文联系在一起的另一个因素是，他们运用了与众不同的机器学习方法。机器学习是一种通过让计算机分析大量训练数据来让执行计算任务的技术。在一个传统的机器学习系统中，用于训练的数据被事先标记好，系统会尝试学习分析这些数据的特征与哪些标签相关联。而评价机器学习的一个标准是，计算机正确标记出了多少事先未被标记的数据。

在他们的论文中，系统被训练用于推断世界的物理模型——例如推断某个大部分都隐藏在视野之外的物体的三维形状。之后模型被反向运用，使用系统输出的模型再合成输入数据，并且通过重建的数据与原始数据相匹配的程度来评价系统的推断水平。

比如说，构建的三维模型需要分析并剥离出所有挡住对象的遮蔽物，还要滤除掉该对象的视觉纹理，反射和阴影，并且要能够推断出视野之外的对象形状。当吴佳俊和特南鲍姆的系统建立模型后，系统还需要把三维模型在空间中旋转到图片上的位置，并给模型添加上视觉纹理，直到最终可以近似输入图像数据。

事实上，研究人员的四篇论文中有两篇论述了从图像数据推断三维模型的复杂性。共同参与撰写这些论文的还有另外四位麻省理工学院的研究人员，包括电气工程与计算机科学教授威廉·弗里曼 (William Freeman)，以及来自 DeepMind、上海科技大学和上海交通大学的研究人员。

分而治之

此次建立起来的系统基于麻省理工学院神经科学家大卫·马尔 (David Marr) 一项非常有影响力的理论。马尔在 1980 年英年早逝，年仅 35 岁。根据马尔的假设，人脑在解释一个视觉场景时，会首先创建一个 2.5 维“草图”用于表示可见物体的表面。然后，在这个 2.5 维“草图”的基础上 (而非这个场景的原始视觉信息的基础上)，大脑继续推断出所看到物体的完整三维形状。

“这两个问题都很难，但是至少我们有一个很好的方法来分解它们”，吴佳俊说，“这样你可以一次处理一个问题，而不是同时解决它们，那样难度会更大。”

图丨吴佳俊，2010 年毕业于华东师范大学第二附属中学，获全国青少年信息学奥林匹克竞赛一等奖保送至清华大学，就读于交叉信息院计算机科学实验班 ( 著名的姚期智班 )。他现为麻省理工学院四年级博士生，已在 CVPR，NIPS，ECCV，PAMI 等会议和期刊上发表 20 余篇论文，曾荣获清华大学特等奖学金、百度奖学金、Facebook 奖学金等

吴佳俊和他的合作者使用包括视觉图像与图像上物体的三维模型数据对系统进行训练。构建真实照片中物体的精确三维模型将耗时过长，因此在最初阶段，研究人员使用生成的数据来训练这个系统。其中，图像数据从三维模型渲染而成。整个创建数据的过程大概和创建电脑动画电影一样。

当训练系统学习合成的数据之后，就可以把精度调得更高然后使用实际数据对系统进行训练学习。评价系统学习效果的最终指标是系统再生成的重建模型与输入数据对比的准确度。

在评估系统时，研究人员使用了一种常用的名为交并比的评估方法。在这一度量下，他们的系统胜过了上一代。另一方面，由于交并比不能很好的刻画模型的局部细节，吴佳俊和他的同事们也运用众包方法，让用户评价模型对源图像中物体重建的精确度。74% 的参与者认为新系统的重建结果优于前一代。

时间永是流驶

在吴佳俊和特南鲍姆、弗里曼的另一篇论文中，他们训练了一个系统来分析物体落下的声音，以推断物体的形状，材质以及它落下的高度。参与这项研究的还有麻省理工学院，剑桥大学和上海科技大学的研究人员。同样的，系统被训练去生成某一物体的抽象模型，然后再反过来，利用这个模型来模拟它从特定高度落下时将会产生的声音。根据合成声音和源声音之间的相似性，最终可以判断这个系统的性能。

最后，在他们的第四篇论文中，吴佳俊、特南鲍姆、弗里曼、DeepMind 和牛津大学的合作者构建了一个系统，这个系统开始模拟人类直觉如何理解作用于物体的物理量。这篇论文的假设起点是之前的三篇论文所描述的最终结果：即假设系统已经成功推导出物体的三维形状。

论文中使用了简单形状的物体进行研究：球和立方体。研究人员训练他们的系统执行两项任务，首先是让系统估测在台球桌上行进的台球的速度，并据此预测台球在碰撞之后的表现。另外一项任务则是分析堆叠的立方体的静态图像，并预测这些立方体会不会掉落，如果会掉落的话，立方体将落在哪里。

吴佳俊提出了一种被他称之为场景 XML 的表征语言，可以定量描述视觉场景中的物体的相对位置。在研究中，系统首先要学习用这种语言来描述所输入的数据，然后系统将描述出的结果提供给一个“物理引擎”，这个物理引擎可以对作用于所研究物体上的物理力进行建模。物理引擎既是计算机动画也是科学计算中的重要组成部分，在计算机动画中物理引擎被用来生成衣服的移动，物体的落下等，在科学计算中，物理引擎则被用于大规模的物理模拟。

当物理引擎完成球和立方体运动预测的之后，这些信息会被送到给图像渲染引擎中。渲染引擎生成的输出会再次与源图像进行比较。与在视觉重建研究中使用的方法一样，研究人员先用合成数据训练系统，然后再细化精度，使用真实数据训练他们的系统。

在测试中，新的系统同样比现有的系统有更好的表现。在预测台球运动的实验中，新系统时常比人类表现得更好。

“这些工作中的最关键的洞察力在于利用物理工具——渲染器，模拟引擎，训练好的模型——来训练生成模型”，南加州大学计算机科学助理教授约瑟夫·林 (Joseph Lim) 评论，“当把这个简单而优雅的想法与最新最先进的深度学习技术相结合时，我们看到了机器在多项解释物理世界的任务中取得的巨大成果。”

-End-

编辑：vantee

审阅：李嘉晖、吴佳俊

参考：

http://news.mit.edu/2017/computer-systems-predict-objects-responses-physical-forces-1214?from=singlemessage&isappinstalled=0