会员服务 ·

AI学会理解物理力学，机器像人更进一步 | 清华学神在MIT新研究

2017 年 12 月 19 日 量子位 专注报道AI

问耕发自凹非寺
量子位出品 | 公众号 QbitAI

机器能自行理解我们这个物理世界的基本规则么？答案是能。

多年以来，麻省理工学院（MIT）的研究人员一直在寻求解释和复制人类智能，而他们最近的研究成果，是如何让AI智能体拥有认知世界的基本能力。

即：学会分辨不同的对象，以及推断它们如何受到物理作用力的影响。

这包括几个方面。首先是看到图片后，能脑补其中物体的三维形状；其次是判断物体的物理特性，例如质量和摩擦力等；然后是推断随着时间推移，这些它们会如何被物理作用力改变，比方会发生何种位移。

在这个方向上，MIT博士生吴佳俊和团队一起发表了四篇研究论文，这四篇论文入选了刚刚结束的NIPS，而且有两篇被选为spotlight。

其中三篇论文谈及如何从视觉和听觉数据中，推断出物体的物理结构。另外一篇，则是预测这些物体会会如何发生变化。

“总而言之，我们已经能够让机器像人类一样，掌握越来越多对物理世界的基本理解”，吴佳俊的导师Josh Tenenbaum教授表示。

脑补

首先要解决的问题是，如何正确认知这个世界。

挑战在于，如何构建一个神经网络模型，能够基于给定的二维图片，脑补出隐藏在视线之外的物体形状，最终还原构建出一个三维图像。

这需要模型能看透物体间的相互遮挡，滤除混杂期间的视觉纹理、反射和阴影，推断看不见的地方究竟是什么形状等等。

显然这是一个复杂的问题。参与这项研究的不止MIT学者，还有来自DeepMind、上海科技大学、上海交通大学的各路高手。

这些研究基于MIT神经科学家大卫·马尔（David Marr）的理论。这位英年早逝的科学家认为，在解释一个视觉场景时，大脑首先从观察角度建立对象的2.5D草图，然在在此基础上，大脑继续推断出物体完整的三维形状。

这不是一件易事。

吴佳俊和同事们为了训练神经网络，会首先建立一个三维场景模型，然后再生成一张二维图片。整个过程就像拍摄动画电影似的。一旦有了数据，就能让AI开始自学如何基于二维图片，脑补出三维场景。

还有更有意思的挑战。

比方，听声脑补。在另一篇论文中，他们训练了一个系统，通过物体被丢弃时发出的声音，推断物体的形状、材质以及跌落的高度。

物理

神经网络已经学会如何脑补一个三维世界，现在，是时候让AI学习如何像人类一样，掌握对真实世界物理作用力的直观理解了。

研究人员一共交待了两项任务。

其一，是估计台球的运行速度，并据此预测台球（们）发生撞击后，后续的运动情况。其二，是分析堆叠的方块静态图，并据此判断这堆方块是否会掉落，以及会落在何处？

吴佳俊为此开发了一种称为场景XML的表示语言，可以定量描述视觉场景中物体的相对位置。神经网络首先学习使用这个语言输入数据，然后把这个描述提供给一个物理引擎，这个引擎负责基于物理作用力进行建模。

物理引擎最终完成台球和方块运动的预测之后，信息被发送给图形引擎，最终形成一张预测图片。这张图片会与真实场景的物理作用结果进行比较。

在测试中，MIT的研究超过了前人的成果。

“他们使用了物理工具来训练生成模型”，南加州大学计算机科学助理教授Joseph Lim表示：“这个简单而优雅的想法与最先进的深度学习技术结合，在与解释物理世界相关的多项任务中展现了非常棒的结果”。

上述内容主要源自MIT News，原文地址：

http://news.mit.edu/2017/computer-systems-predict-objects-responses-physical-forces-1214

吴佳俊

上面提及的四篇论文中，吴佳俊都有参与，其中两篇是作为第一作者。

前面已经提到，吴佳俊现在是MIT的博士生。他的导师是Bill Freeman教授Josh Tenenbaum教授。吴佳俊的研究方向主要为计算机视觉、机器学习和计算认知科学。

吴佳俊本科毕业于清华大学交叉信息研究院，导师为屠卓文教授。

2010年9月，18岁的吴佳俊通过全国信息学奥林匹克竞赛从上海华东师范大学第二附属中学保送至清华大学。

就读清华期间，吴佳俊一度成为话题人物。当时吴佳俊正参选2013年清华大学本科生特等奖学金，他的一份个人履历引起了广泛的关注。其中最受关注的一项成就是：顶级会议CVPR 2014审稿人。

此后，吴佳俊时常被被外界冠以超强履历、新一代学神等形容词。

相关论文

最后，如果你对上述提及的四篇论文感兴趣，可以前方吴佳俊的个人主页查看，地址：jiajunwu.com。

另外，在量子位微信公众号（ID：QbitAI）后台回复：“吴佳俊”三个字，也能获得这四篇论文的下载地址。

— 完 —

活动报名

加入社群

量子位AI社群12群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot4入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot4，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

相关内容

物理力

关注 0

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

专知会员服务

26+阅读 · 2020年7月4日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

96+阅读 · 2020年6月19日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

如何构建通用人工智能AGI？这份来自数学家视角见解可以参阅，64页PPT

专知会员服务

44+阅读 · 2020年6月15日

【哈佛大学】机器学习的黑盒解释性，52页ppt

专知会员服务

172+阅读 · 2020年5月27日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

专知会员服务

10+阅读 · 2020年3月20日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

【BAAI|2019】用深度学习模拟原子间势，王涵（附pdf）

专知会员服务

18+阅读 · 2019年11月21日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

2019 年，最值得回顾的十大 AI 学术观点

AI科技评论

6+阅读 · 2019年12月31日

还在脑补画面？这款GAN能把故事画出来

机器之心

5+阅读 · 2019年7月6日

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

量子位

9+阅读 · 2019年6月10日

女神背心变内衣，只需草图画几笔 | 中山+字节跳动等新研究

量子位

5+阅读 · 2019年6月7日

可视化理解四元数，愿你不再掉头发

计算机视觉life

31+阅读 · 2019年1月2日

谷歌的这只AI学会了“打小抄”，还骗过了它的创造者

大数据文摘

5+阅读 · 2019年1月2日

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

MIT设计跨模态系统，让模型“听音识图”

论智

3+阅读 · 2018年9月20日

12岁上中科大，17岁哈佛博士，31岁成哈佛教授，学神认识一下？

德先生

9+阅读 · 2018年5月27日

AI学会了视觉推理，“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

量子位

6+阅读 · 2018年3月31日

Use the Force, Luke! Learning to Predict Physical Forces by Simulating Effects

Arxiv

4+阅读 · 2020年3月26日

Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

Arxiv

8+阅读 · 2020年3月12日

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

Arxiv

3+阅读 · 2019年7月10日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Attend More Times for Image Captioning

Arxiv

6+阅读 · 2018年12月8日

Can LSTM Learn to Capture Agreement? The Case of Basque

Arxiv

3+阅读 · 2018年9月11日

What we really want to find by Sentiment Analysis: The Relationship between Computational Models and Psychological State

Arxiv

6+阅读 · 2018年6月3日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

VIP会员

AI学会理解物理力学，机器像人更进一步 | 清华学神在MIT新研究

问耕 发自 凹非寺量子位 出品 | 公众号 QbitAI

脑补

物理

吴佳俊

相关论文

相关内容

问耕发自凹非寺
量子位出品 | 公众号 QbitAI