Detecting human-object interactions (HOI) is an important step toward a comprehensive visual understanding of machines. While detecting non-temporal HOIs (e.g., sitting on a chair) from static images is feasible, it is unlikely even for humans to guess temporal-related HOIs (e.g., opening/closing a door) from a single video frame, where the neighboring frames play an essential role. However, conventional HOI methods operating on only static images have been used to predict temporal-related interactions, which is essentially guessing without temporal contexts and may lead to sub-optimal performance. In this paper, we bridge this gap by detecting video-based HOIs with explicit temporal information. We first show that a naive temporal-aware variant of a common action detection baseline does not work on video-based HOIs due to a feature-inconsistency issue. We then propose a simple yet effective architecture named Spatial-Temporal HOI Detection (ST-HOI) utilizing temporal information such as human and object trajectories, correctly-localized visual features, and spatial-temporal masking pose features. We construct a new video HOI benchmark dubbed VidHOI where our proposed approach serves as a solid baseline.


翻译:检测人类物体相互作用(HOI)是全面视觉了解机器的一个重要步骤。虽然从静态图像中探测非时空 HOI(例如坐在椅子上)是可行的,但即使人类也不可能从单一的视频框中猜测与时间相关的 HOI(例如打开/关闭一扇门),因为相邻框架在其中起着重要作用。然而,仅对静态图像操作的常规 HOI 方法被用来预测与时间有关的相互作用,这基本上是在没有时间背景的情况下进行猜测,并可能导致亚最佳的性能。在本文中,我们通过以明确的时间信息探测视频 HOI 来弥补这一差距。我们首先显示,由于地貌不一致的问题,共同行动探测基线的天性时间觉变异并不在视频HOI上起作用。我们然后提出了一个简单而有效的架构,称为空间-时空HOI 检测(ST-HI),利用时间信息,如人与物体轨迹、正确定位的视觉特征和空间-时空遮罩等时间信息。我们提出一个新的视频定位基准,作为我们的一个基准。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
专知会员服务
59+阅读 · 2021年3月17日
专知会员服务
50+阅读 · 2021年1月19日
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
8+阅读 · 2019年10月16日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
CVPR2019年热门论文及开源代码分享
深度学习与NLP
7+阅读 · 2019年6月3日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
已删除
将门创投
7+阅读 · 2018年4月18日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
6+阅读 · 2021年3月11日
Arxiv
9+阅读 · 2021年3月3日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关资讯
CVPR 2019视频描述(video caption)相关论文总结
极市平台
8+阅读 · 2019年10月16日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
CVPR2019年热门论文及开源代码分享
深度学习与NLP
7+阅读 · 2019年6月3日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
已删除
将门创投
7+阅读 · 2018年4月18日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员