理解物体之间潜在关系，MIT新研究让AI像人一样「看」世界

会员服务 ·

理解物体之间潜在关系，MIT新研究让AI像人一样「看」世界

2021 年 12 月 20 日 机器之心

机器之心报道

编辑：小舟

人工智能必须理解物体之间的潜在关系才能更好地与世界交互。

人们观察场景通常是观察场景中的物体和物体之间的关系。比如我们经常这样描述一个场景：桌面上有一台笔记本电脑，笔记本电脑的右边是一个手机。

但这种观察方式对深度学习模型来说很难实现，因为这些模型不了解每个对象之间的关系。如果不了解这些关系，功能型机器人就很难完成它们的任务，例如一个厨房机器人将很难执行这样的命令：「拿起炒锅左侧的水果刀并将其放在砧板上」。

为了解决这个问题，在一篇 NeurIPS 2021 Spotlight 论文中，来自 MIT 的研究者开发了一种可以理解场景中对象之间潜在关系的模型。该模型一次表征一种个体关系，然后结合这些表征来描述整个场景，使得模型能够从文本描述中生成更准确的图像。

论文地址：https://arxiv.org/abs/2111.09297

现实生活中人们并不是靠坐标定位物体，而是依赖于物体之间的相对位置关系。这项研究的成果将应用于工业机器人必须执行复杂的多步骤操作任务的情况，例如在仓库中堆叠物品、组装电器。此外，该研究还有助于让机器能够像人类一样从环境中学习并与之交互。

每次表征一个关系

该研究提出使用 Energy-Based 模型将个体关系表征和分解为非规一化密度。关系场景描述被表征为关系中的独立概率分布，每个个体关系指定一个单独的图像上的概率分布。这样的组合方法可以建模多个关系之间的交互。

该研究表明所提框架能够可靠地捕获和生成带有多个组合关系的图像，并且能够推断潜在的关系场景描述，并且能够稳健地理解语义上等效的关系场景描述。

在泛化方面，该方法可以推广到以前未见过的关系描述上，包括对象和描述来自训练期间未见过的数据集。这种泛化对于通用人工智能系统适应周围世界的无限变化至关重要。

以往的一些系统可能会从整体上获取所有关系，并从描述中一次性生成图像。然而这些模型不能真正适应添加更多关系的图像。相比之下，该研究的方法将单独的、较小的模型组合在一起，能够对更多的关系进行建模并适应新的关系组合。

此外，该系统还可以反向工作——给定一张图像，它可以找到与场景中对象之间的关系相匹配的文本描述。该模型还可通过重新排列场景中的对象来编辑图像，使它们与新的描述相匹配。

研究人员将他们的模型与几种类似深度学习方法进行了比较，实验表明在每种情况下，他们的模型都优于基线。

他们还邀请人们评估生成的图像是否与原始场景描述匹配。在描述包含三个关系的示例中，91% 的参与者认为该模型的性能比以往模型更好。

这些早期结果令人鼓舞，研究人员希望未来该模型能够在更复杂的真实世界图像上运行，这需要解决物体遮挡、场景混乱等问题。

他们也期待模型最终能够整合到机器人系统中，使机器人能够推断现实世界中的物体关系，更好地完成交互任务。

感兴趣的读者可以阅读论文原文了解更多研究细节。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

笔记本电脑

关注 4

是一种小型、可以方便携带的个人电脑.通常拥有液晶显示器（液晶屏），现在新式的有触摸屏。除了键盘以外，有些还装有触控板（touchpad）或触控点作为定位设备。

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

专知会员服务

15+阅读 · 2022年4月6日

如何帮助人类理解机器人？哈佛、MIT专家为你解读

专知会员服务

30+阅读 · 2022年3月11日

计算机视觉和人类视觉有更多的共同点？MIT研究人员解读【周边视觉对机器的好处】

专知会员服务

21+阅读 · 2022年3月7日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知会员服务

24+阅读 · 2022年2月21日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

【NeurIPS2021】组合能量概念无监督学习

专知会员服务

14+阅读 · 2021年11月5日

【ICML2021】通过乘积流形投影学习解纠缠表示

专知会员服务

7+阅读 · 2021年9月20日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

73+阅读 · 2021年7月29日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

专知

1+阅读 · 2022年4月6日

Meta祭出元宇宙「阿拉丁神灯」！LeCun称世界模型将带来像人一样的AI

新智元

0+阅读 · 2022年2月24日

3张图片生成一个手办3D模型！南加州大学华人博士提出新模型NeROIC，更真实！

新智元

1+阅读 · 2022年2月24日

为了自动驾驶，谷歌用NeRF在虚拟世界中重建了旧金山市

机器之心

3+阅读 · 2022年2月12日

量子纠缠生成全息图：物体无需发光，却可成像！

新智元

0+阅读 · 2022年2月11日

AI 真的能够理解人类语言吗？

CSDN

1+阅读 · 2021年12月24日

MIT博士用概率编程让AI和人类一样看三维｜NeurIPS 2021

新智元

0+阅读 · 2021年12月18日

MIT、哈佛新研究：提速15000倍，借助光场实现3D场景超高速渲染

机器之心

0+阅读 · 2021年12月14日

学习抓取柔性物体

TensorFlow

3+阅读 · 2021年7月5日

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

人机交互合作装配中人体行为分析与理解方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

旋转飞行物体的状态估计与轨迹预测

国家自然科学基金

0+阅读 · 2014年12月31日

自然场景图像中的部分形状识别方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

Affordance辅助服务机器人识别形状不规则物体研究

国家自然科学基金

0+阅读 · 2013年12月31日

自我运动中Optic flow对物体运动知觉的影响机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

在线社会网络中各主体动态行为间的相互作用分析

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义多边图的多物体图像类别发现及其在图像检索中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于基本形状体及其拓扑结构的点云场景物体识别方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视频语义理解的艺术风格化研究

国家自然科学基金

1+阅读 · 2009年12月31日

A Deeper Look into Aleatoric and Epistemic Uncertainty Disentanglement

Arxiv

0+阅读 · 2022年4月20日

Investigation of condominium building collapse in Surfside, Florida: A video feature tracking approach

Arxiv

0+阅读 · 2022年4月14日

VideoDG: Generalizing Temporal Relations in Videos to Novel Domains

Arxiv

14+阅读 · 2021年9月17日

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs

Arxiv

40+阅读 · 2019年6月4日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

VIP会员