This paper considers the problem of spatiotemporal object-centric reasoning in videos. Central to our approach is the notion of object permanence, i.e., the ability to reason about the location of objects as they move through the video while being occluded, contained or carried by other objects. Existing deep learning based approaches often suffer from spatiotemporal biases when applied to video reasoning problems. We propose Hopper, which uses a Multi-hop Transformer for reasoning object permanence in videos. Given a video and a localization query, Hopper reasons over image and object tracks to automatically hop over critical frames in an iterative fashion to predict the final position of the object of interest. We demonstrate the effectiveness of using a contrastive loss to reduce spatiotemporal biases. We evaluate over CATER dataset and find that Hopper achieves 73.2% Top-1 accuracy using just 1 FPS by hopping through just a few critical frames. We also demonstrate Hopper can perform long-term reasoning by building a CATER-h dataset that requires multi-step reasoning to localize objects of interest correctly.


翻译:本文考虑了视频中时空对象中心推理的问题。 我们方法的核心是对象永久性概念, 即当物体在视频中移动时, 能够解释物体的位置, 而其他物体却被隐蔽、 控制或携带。 现有的深层学习基础方法在应用到视频推理问题时, 常常受到时空偏差的影响。 我们建议Hopper使用多霍普变换器来解释视频中的对象永久性。 根据视频和本地化查询, 图像和对象轨迹的超常性理由可以以迭接方式自动跳过关键框架, 以预测对象的最后位置。 我们展示了使用对比性损失来减少空间偏差偏见的有效性。 我们评估CATER数据集, 发现Hopper仅仅通过浏览几个关键框架, 就能通过 1 FPS 来达到73.2% Top-1 的精度。 我们还证明Hoper可以通过建立一个需要多步推法来正确定位对象的CATER-h数据集来进行长期推理。

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
专知会员服务
23+阅读 · 2020年9月8日
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
已删除
将门创投
3+阅读 · 2019年1月15日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Neural Module Networks for Reasoning over Text
Arxiv
9+阅读 · 2019年12月10日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
已删除
将门创投
3+阅读 · 2019年1月15日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Top
微信扫码咨询专知VIP会员