Reasoning about the behaviour of physical objects is a key capability of agents operating in physical worlds. Humans are very experienced in physical reasoning while it remains a major challenge for AI. To facilitate research addressing this problem, several benchmarks have been proposed recently. However, these benchmarks do not enable us to measure an agent's granular physical reasoning capabilities when solving a complex reasoning task. In this paper, we propose a new benchmark for physical reasoning that allows us to test individual physical reasoning capabilities. Inspired by how humans acquire these capabilities, we propose a general hierarchy of physical reasoning capabilities with increasing complexity. Our benchmark tests capabilities according to this hierarchy through generated physical reasoning tasks in the video game Angry Birds. This benchmark enables us to conduct a comprehensive agent evaluation by measuring the agent's granular physical reasoning capabilities. We conduct an evaluation with human players, learning agents, and heuristic agents and determine their capabilities. Our evaluation shows that learning agents, with good local generalization ability, still struggle to learn the underlying physical reasoning capabilities and perform worse than current state-of-the-art heuristic agents and humans. We believe that this benchmark will encourage researchers to develop intelligent agents with advanced, human-like physical reasoning capabilities. URL: https://github.com/Cheng-Xue/Hi-Phy


翻译:以物理物体的行为为根据,这是在物理世界中操作的代理人的一种关键能力。人类在物理推理方面经验丰富,但对于AI来说仍然是一项重大挑战。为了便利研究解决这一问题,最近提出了几项基准。然而,这些基准使我们无法测量代理人的颗粒物理推理能力,以完成复杂的推理任务。在本文件中,我们提议了一个物理推理能力的新基准,允许我们测试个体物理推理能力。在人类如何获得这些能力的启发下,我们提议以日益复杂的方式对物理推理能力进行总体等级划分。我们通过在视频游戏《愤怒鸟》中生成物理推理任务,根据这一等级进行基准测试能力。这一基准使我们能够通过测量代理人的颗粒物理推理能力,进行全面的代理评估。我们对人类玩家、学习代理人和超自然剂进行评估,并确定他们的能力。我们的评估表明,学习代理人,具有良好的当地普遍化能力,仍然在学习基本的物理推理能力,并且比当前状态更差。我们相信,我们的基准将鼓励研究人员发展智能的代理人,即高级的MAC/HI/HReximal。

0
下载
关闭预览

相关内容

[WSDM2021]用于边缘流异常检测的频率因子分解
专知会员服务
11+阅读 · 2020年11月24日
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
49+阅读 · 2020年8月25日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员