学界 | FAIR等机构联合提出IntPhys：你的智能系统的物理知识，比得上婴儿吗？

2018 年 4 月 6 日 机器之心

选自arXiv

机器之心编译

参与：Nurhachu Null、刘晓坤

婴儿和许多动物对物体的相互作用有直观理解，并能逐步掌握物体恒常性、因果关系、重力、形状不变性等直观、非语言概念。受此启发，Facebook AI Research 等机构联合提出了一个评估框架和基准数据集 IntPhys，通过测试系统区分可能与不可能事件的能力，来诊断其对直观物理的理解程度。该项目对于无监督学习和现实交互系统等应用有重要意义。

1. 引言

尽管机器视觉在许多任务（面部识别 [ 68]、目标识别 [ 33，26] 、目标分割 [ 52] 等）上取得了引人瞩目的进展，但是人工系统对复杂场景的理解还远远达不到人类水平。场景理解不仅涉及目标分割和跨时间目标追踪，还涉及目标之间的空间和时间关系表征，并能够预测它们在物理世界中的交互方式。

实验证据表明，非常小的婴儿和许多动物确实对物体的相互作用有直观的理解，他们利用这种「直观的物理学」来预测未来的物体状态并规划他们的行动 [ 4 ]。在 2 - 4 个月的时候，婴儿就能够从物体恒常性、实体性和时空连续性的角度分析视觉输入 [ 29，65] 。在 6 个月的时候，他们理解了稳定、支持和因果关系的概念 [63，6，5] 。在 8 到 10 个月之间，他们掌握了重力、惯性和碰撞动量守恒的概念；10 至 12 个月之间，他们掌握了形状不变性 [ 70 ]。这种隐性知识是直观的和非语言的（相对于物理课中教授的形式化知识），并且遵循与早期语言习得平行的发展路径。这两种情况都发展快速、自发，而且没有护理人员的明确培训 [ 53 ]。

在生物体中，直观物理是一种潜在的构造：它只能通过对特定任务（如计划、解决问题）的影响来间接地观察和衡量，或者在人类中，通过口头描述和解释来观察和衡量。还可以通过测量对「魔术」的惊讶反应来揭示，即对物理上不可能发生的事件（例如物体不知从哪里消失或出现、相互穿越或无视重力等）表示无法理解或好奇。直观物理的潜在性质对视觉系统提出了两个难题：评估挑战和工程挑战。

评估挑战可以表述为：给定一个人工视觉系统，定义一个量化该系统对（直观）物理了解程度的度量。可能的解决方案是通过真实世界的应用来测量直观物理现象，比如视觉问答 ( VQA )、目标追踪或行动规划（见图 1）。然而，这可能会遇到两种风险： ( a ) 数据集偏差；( b ) 测量噪声。第一个风险（又称之为 Clever Hans 问题 [ 28 ]）是现实生活中的应用程序数据集经常存在的固有统计偏差，这使得有时只需最小程度的干预就可以获得良好的性能，有时却相反。第二种风险是系统的整体性能是其各部分性能的复杂函数；因此，如果一个 VQA 系统比另一个具有更好的性能，这可能不是因为它更好地理解物理，而是因为它有更好的语言模型。

我们提出了一个框架，称之为「物理合理性测试」，它以无任务和无模型的方式直接评估系统的直观物理能力。这一框架的灵感来源于对婴儿和动物直观物理的研究。它将物理推理过程重塑为一个简单的是非分类问题：呈现简单场景的视频，并询问所描绘的事件在物理上是否可能。技巧在于准备匹配的视频集，其中物理背离在可能与不可能的电影帧之间引入最小差异。通过改变物理背离的性质，可以探索不同类型的推理（关于物体及其属性的规律、关于物体移动和交互的规律等）。

考虑到我们的方法涉及到自然界中不能自发出现的事件，它应该作为一种诊断测试，而不是一种训练物理推理系统的实用方法。然而，它的优点在于，它可以应用于已经在其他任务上训练的各种系统。只要这些系统对计算给定场景的全局标量数的要求最小，我们就可以将其解释为「合理性」得分。任何基于概率或重构误差的系统都可以容易地得到这样的分数。

工程挑战可表述如下：构建一个系统，尽可能多地融入直观的物理（至少像婴儿一样，作为初始阶段）。我们已经放弃使用不可能事件的视频来训练这样一个系统，理由是我们需要注重实用性。另一种使用带有高级标注（物理实体、定律或关系等）的监督学习方法，也是不切实际的。首先，系统可以在不执行完整 3D 重建的情况下对场景具有良好的物理理解。第二，婴儿无需输入任何高级标签就可以学习直观物理。事实上，他们只经历「积极」的物理事件（物理上可能的事件）。此外，婴儿可以从他们的环境中获得有用的反馈，因为他们在运动控制方面变得更有能力，尽管这种反馈只存在于可能发生的事件中。所以，解决该挑战的一种方法是构建无监督或弱监督的系统，该系统使用婴儿可获得的相同类型的数据（即，大量的感官观察数据、有限但信息丰富的环境反馈、仅包含积极事件的实例），来学习物理定律。

这里，我们提出了一个直观物理的基准 IntPhys，其目标是同时尝试解决评估挑战和工程挑战。它由一个 python 接口游戏引擎（UnrealEngine 4）构建的合成视频组成，实现了逼真的物理效果和精确的控制。训练集仅包括积极事件，即由固定不动的智能体从第一人称角度观看可能事件的视频。这可能比婴儿面临的任务更困难，因为婴儿可以探索和与环境互动。但是有趣的地方在于，通过这种简化输入可以获得多大程度的直观物理能力，这种输入在现实世界中很容易通过摄像机大量收集。此外，这使得模型的比较更加容易，因为它们都使用相同的训练数据。测试集是根据我们的评估框架构建的，也就是说，它要求系统输出合理性得分，并根据其将可能视频与不可能视频区分的能力进行评估。该测试集还可以用作以其他方式（真实视频、虚拟环境中的交互式训练等）训练的系统的独立诊断评估 [58,27,10]。

图 2：具有物体恒常性的最小训练集设计的图示。具有一个、两个物体和一个限流器的静态条件示意图。在两个可能的视频 (绿色箭头) 中，物体的数量保持不变，尽管存在遮挡。在两个不可能的视频 (红色箭头) 中，物体的数量发生变化 (从 1 变为 2 或从 2 变为 1 )。

4 IntPhys 基准（V1.0）

我们在本文介绍 IntPhys 的第一个版本。IntPhys 是一个基准，目标是解决视觉系统中直观物理能力的工程和评估挑战。第一版的重点是无监督学习，只测试问题层次结构的第一个模块 ( O1，物体恒常性)。未来的版本将包括表 1 中更多的模块。

表 1：直观物理框架的概念模块列表。

该基准由三个部分组成：( 1 ) 仅包含在虚拟环境中移动和交互的简单无生命物体的物理上可能的事件的训练集；( 2 ) 包含物理上可能的和物理上不可能的视频的开发集和测试集，如上所述以元组匹配； ( 3 ) 评估软件。通过这三个组成部分，以及对测试集的人类合理性判断结果，为人类感知建模算法提供了参考。

图 3：训练集中的帧示例。

表 2：使用 MTurk 对 IntPhys（模块 O1）测试集中的人类合理性判断的平均错误率。*代表根据我们的入选标准，此数据点已被「强制」为零。

图 6：语义掩码预测器的输出示例。从左到右:输入图像、真实语义掩码、预测语义掩码。

论文：IntPhys: A Framework and Benchmark for Visual Intuitive Physics Reasoning（一个用于视觉直观物理推理的评估框架和基准数据集）

论文地址：https://arxiv.org/pdf/1803.07616.pdf

摘要：为了达到人类在复杂视觉任务中的表现性能，人工系统需要在宏观对象、运动、力等方面融入对世界的理解。在婴儿直观物理研究的启发下，我们提出了一个评估框架，通过测试给定系统区分视频中可能与不可能事件的能力，来诊断给定系统对直观物理的理解程度。测试要求系统计算整个视频的物理合理性得分。它没有偏见，可以测试一系列具体的物理推理技能。然后，我们介绍了新基准数据集的第一个版本，该版本旨在通过使用游戏引擎构建的视频，以无监督的方式学习直观物理。我们介绍了两个用未来帧预测目标训练的深层神经网络基线系统，并在可能 vs 不可能的辨别任务上进行了测试。通过将结果与人类数据进行比较分析，我们对未来帧预测体系结构的潜力和局限性给出了新见解。