MIT博士用概率编程让AI和人类一样看三维｜NeurIPS 2021

会员服务 ·

MIT博士用概率编程让AI和人类一样看三维｜NeurIPS 2021

2021 年 12 月 18 日 新智元

新智元报道

编辑：LRS

【新智元导读】神经网络模型最大的弊端就在于无法理解物理世界的常识，人类一眼就能看到的物体，AI模型却视而不见；盘子都漂浮在空中了，模型还觉得自己预测对了。MIT博士在NeurIPS 2021带来的工作也许能帮你在视觉模型中注入这些物理常识，获得三维场景感知能力！

人与AI之间最大的区别就是对常识的利用！

无论各种AI模型在各大排行榜以何种性能超越了人类，它们在常识的利用上仍然远远不及人类，而这也正是目前AI研究中需要面临的一个巨大的挑战。

对于自然语言处理的研究来说，我们可以向模型中添加各种知识图谱、实体等信息来增强模型对于常识的感知能力，但对于计算机视觉来说就没有那么容易了。

视觉的常识不仅要考虑各个物体之间在现实中的空间关系，还要考虑物体位置的合理性。

如果有物理世界的常识能够注入到视觉系统中，那就不会识别出悬空的盘子、藏在碗后面的叉子若隐若现等等「育碧」特色建模。

更严重一点的说，当不完善的、没有常识的视觉系统应用到自动驾驶系统时，导致无法识别出行人、急救车等，或者错误理解了空间位置关系，那后果将不堪设想。

人类的视觉和AI视觉略有不同，人类的眼睛实际上是三维的，能够对不同视角、不同光照、遮挡和杂乱的场景进行视觉概括。

所以为了给计算机一个三维场景感知的能力，MIT的研究人员最近在NeurIPS 2021上发表了一篇论文，提出了一个基于概率推理的3D场景感知的生成模型3DP3。

模型有了3D感知能力以后，除了可以提高自动驾驶汽车的安全性之外，还可以让清洁机器人感知杂乱场景下物体间的相互关系。

3DP3的核心就是一个生成式的建模框架，使用离散的物体及其三维形状和一个称为场景图（scene graph）的层次结构来表示场景，其中场景图的层次结构与物体的位置和朝向有关。

研究人员使用概率编程来建立框架，让系统能够从输入图像中检测到物体。通过概率推理（probabilistic inference）的方式也可以让系统推断出场景和物体的不匹配是由噪声还是预测错误导致的，增加了可解释性，也有利于下一步处理中的纠正。

例如给定一副RGB图像和对应的深度图，3DP3就可以推断出一个层次的3D场景图。

并且因为模型懂常识，一个物体经常是平放（lay flat）在另一个物体上，所以从深度图中实际上已经可以知道各个物体的位置和朝向了。

除此之外，文中提出的算法还可以推断什么时候这些常识是有用的（紫色节点的夹子和盒子是相关的，因为夹子放在了盒子上），哪些物体用不上（红色节点的四个物体表示一个整体，没有放置在其他物体上）。

但从这幅图上看，瞅着这「四合一」的红色节点还是放置在这个盒子上的，但是文章作者对此没有进一步说明。

并且3DP3使用概率编程（probabilistic program）的形式来表示三维场景的结构化生成模型。

模型使用了两个先验概率，1）从数据中学习到的概率作为物体形状的先验，2）图形上的概率分布作为场景结构的先验。然后从世界节点（world node）开始对场景图进行遍历来计算物体的位置、方向和深度图的似然模型。

世界节点的意思就是所有没有平放在其他物体上的节点的父节点，例如图中的盒子（灰色节点）和四合一物体（红色节点）的父节点就是世界节点。图中为了简化没有画出世界节点。

可以看到，3DP3主要以这种物体之间的接触关系的常识和概率来进行场景图的建模，而这种常识恰恰可以保证系统能够检测和纠正计算机视觉中深度学习模型常犯的错误。并且概率推断也能够更准确地推断出物体的正确相对位置。

文章的作者Nishad Gothoskar也认为这和人类的推断过程是相同的：如果你知道了接触关系，那么你肯定会知道一个物体永远不可能漂浮在桌子上，也就是说，在桌子和物体之间必定还存在一个物体，这对于深度学习的黑盒模型来说是一个强有力的解释操作。

并且3DP3不要求对物体形状进行硬编码，而是提出了一个基于体素（voxel）的物体形状学习方法。研究人员使用概率推理来学习三维物体形状的非参数模型，考虑到了由于self-occlusion而产生的不确定性。

文中主要研究了如何从包含已知类型的单一孤立物体的场景中学习到物体的形状，并没有考虑对更通用的形状学习和对形状不确定性的处理。

有了上面提到的基于接触关系的生成式模型后，就可以搭建一个完整的场景图推理算法了。

由于图像是通过实时图形和点云上的似然概率来建模的，所以研究人员把三维场景的理解作为这种生成模型的近似概率推理。

推理算法将数据驱动的Metropolis-Hastings核与物体姿势、场景图结构的MCMC核、物体形状的不确定性的积分以及现有的深度学习物体检测器和姿势估计器结合起来共同预测。

此外，这种架构能够利用生成模型中的推理来提供常识性的约束，从而修复神经网络检测器所产生的错误。

在实验部分，研究人员使用一个标准的机器人数据集YCB-Video来训练和评估3D感知能力。

首先对每个物体类型选取5张合成图像来学习图形先验，然后使用一个神经6DoF姿势估计模型DenseFusion对模型的推理算法进行初始化。

为了衡量姿势（物体的位置和朝向）预测的准确性，研究人员使用ADD-S来估计物体模型上的点与预测物体姿态之间的平均最近点距离。

实验结果可以看到，3DP3几乎能够准确预测所有形状的物体，并且在消融实验中可以看到，3DP3比固定结构且没有接触关系的3DP3*更精确。

这也表明了基于渲染和结构推断都有助于3DP3更准确地估计6DoF姿态。

参考资料：

https://arxiv.org/pdf/2111.00312

登录查看更多

相关内容

概率编程

关注 2

计算机视觉和人类视觉有更多的共同点？MIT研究人员解读【周边视觉对机器的好处】

专知会员服务

21+阅读 · 2022年3月7日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【NeurIPS 2021】强大图表示的重建

专知会员服务

17+阅读 · 2021年10月4日

什么是自然-XAI？ICML2021这份《可解释人工智能-自然语言解释》教程

专知会员服务

41+阅读 · 2021年7月25日

MIT最新《贝叶斯深度学习》综述论文，37页pdf

专知会员服务

55+阅读 · 2021年1月4日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【NeurIPS 2020 】生成式的基于动态图网络学习的三维部件拼装

专知会员服务

16+阅读 · 2020年10月18日

【NeurIPS 2020】视觉注意力神经编码

专知会员服务

42+阅读 · 2020年10月4日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

上海交大发布「人类行为理解引擎」：深度学习+符号推理，AI逐帧理解大片中每个动作

量子位

0+阅读 · 2022年3月8日

这个新型AI电子器件没有硅！北航32岁教授共同一作，能模拟大脑神经元，还登上了Science

量子位

1+阅读 · 2022年2月8日

布朗大学华人统计30个会议，25年最佳论文：微软第一，清北排名30开外

新智元

1+阅读 · 2022年1月11日

AI 真的能够理解人类语言吗？

CSDN

1+阅读 · 2021年12月24日

理解物体之间潜在关系，MIT新研究让AI像人一样「看」世界

机器之心

0+阅读 · 2021年12月20日

图像随便打乱，模型输入不靠「眼睛」看！Google华人一作：强化学习和人类有相同的感知能力

新智元

0+阅读 · 2021年12月8日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知

0+阅读 · 2021年12月7日

AI发现人类肾细胞有一半结构未知，UCSD最新研究登上Nature，算法已开源

量子位

0+阅读 · 2021年11月25日

让AI认出「生狗」？Facebook构建能感知变化算子的人工智能

新智元

0+阅读 · 2021年3月22日

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

基于行为数据的设计知识提取及表达方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

NiTi-TiB2复合材料的原位合成及其结构功能特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于混合属性分析的人体行为识别方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于二维金属有机材料的单原子催化剂的理论研究

国家自然科学基金

0+阅读 · 2013年12月31日

智能机器人自主知识与自主行动推理研究

国家自然科学基金

1+阅读 · 2012年12月31日

南极乔治王岛陆地-潮间带-近海沉积物放线菌群落结构研究

国家自然科学基金

0+阅读 · 2012年12月31日

虚拟现实中的人类路径整合研究

国家自然科学基金

7+阅读 · 2012年12月31日

静电纺生物活性纳米纤维及传感性能研究

国家自然科学基金

0+阅读 · 2011年12月31日

硼酸生物自润滑材料的合成与生物摩擦学研究

国家自然科学基金

0+阅读 · 2009年12月31日

立体图模型结构下的自然图像理解研究

国家自然科学基金

0+阅读 · 2009年12月31日

Epistemic Uncertainty-Weighted Loss for Visual Bias Mitigation

Arxiv

0+阅读 · 2022年4月20日

A Deeper Look into Aleatoric and Epistemic Uncertainty Disentanglement

Arxiv

0+阅读 · 2022年4月20日

GAMMA Challenge:Glaucoma grAding from Multi-Modality imAges

Arxiv

0+阅读 · 2022年4月19日

An Energy-Based Prior for Generative Saliency

Arxiv

0+阅读 · 2022年4月19日

Natural Language Descriptions of Deep Visual Features

Arxiv

0+阅读 · 2022年4月18日

Positive definite functions on a regular domain

Arxiv

0+阅读 · 2022年4月17日

Dynamic Schema Graph Fusion Network for Multi-Domain Dialogue State Tracking

Arxiv

0+阅读 · 2022年4月15日

Trustworthy AI: From Principles to Practices

Arxiv

46+阅读 · 2021年10月4日

Informed Machine Learning -- A Taxonomy and Survey of Integrating Knowledge into Learning Systems

Arxiv

37+阅读 · 2021年5月28日

Adaptive Methods for Real-World Domain Generalization

Arxiv

13+阅读 · 2021年3月29日

VIP会员