Recent advances in natural language processing and computer vision have led to AI models that interpret simple scenes at human levels. Yet, we do not have a complete understanding of how humans and AI models differ in their interpretation of more complex scenes. We created a dataset of complex scenes that contained human behaviors and social interactions. AI and humans had to describe the scenes with a sentence. We used a quantitative metric of similarity between scene descriptions of the AI/human and ground truth of five other human descriptions of each scene. Results show that the machine/human agreement scene descriptions are much lower than human/human agreement for our complex scenes. Using an experimental manipulation that occludes different spatial regions of the scenes, we assessed how machines and humans vary in utilizing regions of images to understand the scenes. Together, our results are a first step toward understanding how machines fall short of human visual reasoning with complex scenes depicting human behaviors.


翻译:自然语言处理和计算机视觉方面最近的进展导致在人类层面解释简单场景的人工智能模型。然而,我们并不完全了解人类和人工智能模型在解释更复杂的场景方面有何差异。我们创建了一个包含人类行为和社会互动的复杂场景的数据集。大赦国际和人类不得不用一句话描述场景。我们用一个量化的尺度来衡量人工智能/人类的场景描述与人类对每个场景的另外五种人类描述的实地真实的相似性。结果显示,机器/人类协议的场景描述远低于我们复杂场景的人类/人类协议。我们利用一个实验性操纵,将不同的场景空间区域置于不同的空间区域,我们评估了机器和人类在利用图像区域了解场景方面有何差异。我们的结果共同是了解机器如何在描绘人类行为的复杂场景中缺少人类视觉推理的第一个步骤。

0
下载
关闭预览

相关内容

知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
二值多视角聚类:Binary Multi-View Clustering
我爱读PAMI
4+阅读 · 2018年6月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员