清华学神吴佳俊在MIT新研究：让AI像婴儿一样理解世界

会员服务 ·

清华学神吴佳俊在MIT新研究：让AI像婴儿一样理解世界

2019 年 12 月 6 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转载自：新智元

来源：news.mit.edu | 编辑：肖琴

【导读】MIT的研究人员设计了一个模型，展示了对物体应该如何运动的一些基本的“直觉物理学的理解。当场景中的物体做了一些意想不到的事情时，模型会记录下“surprise”，这可以用来构建更智能的人工智能，并反过来提供信息，以帮助科学家理解婴儿的认知。

人类对物理现实的规律很早就有理解。例如，婴儿对物体应该如何移动、如何相互作用抱有期待，当物体出现一些意想不到的事情，例如变魔术令物体凭空消失时，他们会表现出惊讶。

现在，麻省理工学院(MIT)的研究人员设计了一个模型，该模型展示了 对物体应该如何运动的一些基本的“直觉物理学”(intuitive physics)的理解 。该模型可用于帮助构建更智能的人工智能，并反过来提供信息，以帮助科学家理解婴儿的认知。

该模型被称为ADEPT(Approximate Derenderer, Extended Physics, and Tracking)，它能够观察物体在场景中的运动，并根据物体的基本物理特性预测其行为。在跟踪对象时，模型在每个视频帧输出一个与 “惊讶”(surprise) 级别相关的信号——信号越大，惊讶程度越大。如果某个对象与模型的预测严重不匹配(例如，突然消失或瞬间转移)，它的惊讶程度将会激增。

MIT发明的一个模型，通过记录模拟中的物体以意想不到的方式移动时的“惊奇”来展示对一些基本的“直觉物理”(intuitive physics)的理解。

视频展示物体以物理上似乎合理或令人难以置信的方式运动，相应地，模型记录下其惊讶程度，与观看相同视频的人类报告的惊讶程度一致。

“婴儿3个月大的时候就有了一些物理概念，例如物体不会凭空出现或凭空消失，不能彼此穿透或瞬间转移，”该研究的第一作者、MIT大脑与认知科学系研究科学家Kevin A. Smith说，他也是MIT大脑、心智和机器中心(CBMM)的成员。“我们想捕捉并将这些知识形式化，将婴儿的认知能力构建成AI智能体。我们现在正在以模型能区分基本的可信场景或难以置信的场景的方式接近类人智能。”

论文合著者还有MIT电子工程与计算机科学系的本科生Lingjie Mei和BCS研究科学家Shunyu Yao；PhD 吴佳俊；CBMM研究员Elizabeth Spelke；CBMM, BCS以及CSAIL计算认知科学教授Joshua B. Tenenbaum；以及CBMM研究员Tomer D. Ullman。

其中，吴佳俊是颇具传奇色彩的“学神”，他本科毕业于清华大学，是清华交叉信息研究院姚班2010级(计科00)学生。目前在MIT读博。

吴佳俊

吴佳俊在本科期间 连续三年学分绩全年级第一 ，曾全票通过获清华大学本科生特等奖学金、蒋南翔奖学金、姚奖学金一等奖等荣誉。并且，吴佳俊本科即有多篇论文发表于世界顶级会议与期刊，包括3篇CVPR，一篇JAMIA等，以至于姚期智称赞他“ 在科研方面取得的成绩媲美博士生 ”。

吴佳俊目前在MIT读博，师从Bill Freeman和 Josh Tenenbaum教授，专注于机器感知、3D视觉和机器人研究，并将于2020年加入斯坦福大学担任计算机科学助理教授。

ADEPT依赖两大模块，像婴儿一样理解物理

ADEPT依赖于两个模块：一个“ 逆向图形 ”模块从原始图像中捕获对象表示，另一个“ 物理引擎 ”模块根据可能性分布预测对象的未来表示。

ADEPT模型包含两个部分

逆向图形基本上是从像素输入中提取对象的信息，例如形状、姿态和速度。该模块将视频帧捕获为图像，并使用逆向图形从场景中的对象提取这些信息。但它不会陷入细节。ADEPT只需要对每个形状进行一些近似的几何运算。在某种程度上，这有助于模型将预测推广到新对象，而不仅仅是训练中的对象。

“一个物体是矩形还是圆形，是卡车还是鸭子，都没关系。ADEPT只是看到有一个物体处于某个位置，以某种方式移动，从而做出预测，” Smith说。“同样，婴儿在进行物理预测时，似乎也不太在意形状之类的属性。”

这些粗略的对象描述被输入到一个物理引擎——一个模拟物理系统(例如刚体或流体)行为的软件，通常用于电影、视频游戏和计算机图形学。本研究人员的物理引擎“随时间将物体向前推动”，Ullman说，这就产生了一系列的预测，或者说是一个“置信分布”(belief distribution)，来预测下一帧物体会发生什么。

从物理上难以置信的视频中截取的画面，其中一个黄色立方体似乎消失在墙后面了。观察到这一场景的智能体应该会感到惊讶，并使用这一知识作为指导来探索导致黄色立方体消失的物体属性或动力学。

接下来，模型观察实际的下一帧。它会再次捕获对象表示，然后根据其置信分布将其与一个预测对象表示对齐。如果物体遵循物理定律，两种表示之间就不会有太大的不匹配。反之，如果物体做了一些难以置信的事情——比如说，突然从墙后面消失了——就会产生很大的不匹配。

然后，ADEPT从其置信分布中重新采样，并注意到该物体消失的可能性非常低。如果可能性足够低，则该模型会将很大的“惊喜”记录为信号峰值。基本上，惊讶与事件发生的概率成反比。如果概率非常低，信号峰值就会非常高。

“如果一个物体在墙后面，物理引擎会认为这个物体仍然在墙后面。如果墙倒了，后面什么也没有，那就意味着不匹配，”Ullman说。“然后，模型会说，‘在我的预测里是有一个物体的，但我什么也没看到。唯一的解释就是它消失了，所以这很令人惊讶。’”

违反预期：AI对“凭空消失”的惊讶程度与人类特别匹配

在发展心理学中，研究人员进行了“ 违反预期 ”(violation of expectations)的测试，给婴儿看几组视频。其中一段视频展示了一个看似合理的事件，物体遵循着它们对世界如何运转的预期观念。另一个视频在各个方面都是一样的，除了对象的行为在某种程度上违反了预期。研究人员通常会用这些测试来测量婴儿在难以置信的行为发生后看着场景的时间。研究人员假设，婴儿盯着一个场景的时间越长，表示他们对刚刚发生的事情越感到惊讶或感兴趣。

在他们的实验中，研究人员基于经典的发展研究创建了几个场景来检验模型的核心对象知识。他们聘请了60名成年人观看了64段视频，这些视频展示了已知的物理上可信和物理上不可信的场景。例如，物体会移动到墙后，当墙倒下时，它们仍然在那里或消失不见。参与者给他们在各个时刻的惊讶程度打分，分值从0到100。

然后，研究人员向模型展示同样的视频。具体地说，这些场景检验了模型捕捉永恒性(物体不会凭空出现或消失)、连续性(物体沿着连接的轨迹移动)和坚固性(物体不能彼此穿透)等概念的能力。

ADEPT的表现在一类视频中与人类的匹配度尤其高，视频中物体移动到墙后面，当墙被移开时物体凭空消失。

有趣的是，该模型还匹配了人类的惊讶程度，比如人类在应该感到惊讶没有惊讶。例如，在一段视频中，一个以一定速度移动的物体消失在墙后，并立即从另一边出来，这个物体可能在它跑到墙后时突然加速，或者它可能被隔空传送到另一边。总的来说，人类和ADE PT都不太确定这个事件是否令人惊讶。研究人员还发现，从观察中学习物理(但不明确地表示物体)的传统神经网络，在区分令人惊讶的场景和不令人惊讶的场景方面的准确率要低得多，而且他们选择的令人惊讶的场景往往与人类的不一致。

下一步，研究人员计划进一步研究婴儿如何观察和学习世界，目的是将任何新发现纳入他们的模型。例如，研究表明，直到一定年龄的婴儿实际上对物体以某种方式完全改变时并不感到惊讶——比如，一辆卡车在墙后消失了，但又以鸭子的形式出现。

Smith说：“我们想知道还需要什么需要内置的东西，以让AI更像婴儿一样理解这个世界，并将我们对心理学的理解形式化，从而建立更好的人工智能。”

原文：

http://news.mit.edu/2019/adept-ai-machines-laws-physics-1202

推荐阅读

大盘点 | 2019年4篇目标检测算法最佳综述

大盘点 | 2019年5篇图像分割算法最佳综述

大盘点 | 2019年3篇目标跟踪算法最佳综述

重磅！CVer学术交流群已成立

扫码可添加CVer助手，可申请加入CVer大群和细分方向群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索等群。一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群