We present a dual-pathway approach for recognizing fine-grained interactions from videos. We build on the success of prior dual-stream approaches, but make a distinction between the static and dynamic representations of objects and their interactions explicit by introducing separate motion and object detection pathways. Then, using our new Motion-Guided Attention Fusion module, we fuse the bottom-up features in the motion pathway with features captured from object detections to learn the temporal aspects of an action. We show that our approach can generalize across appearance effectively and recognize actions where an actor interacts with previously unseen objects. We validate our approach using the compositional action recognition task from the Something-Something-v2 dataset where we outperform existing state-of-the-art methods. We also show that our method can generalize well to real world tasks by showing state-of-the-art performance on recognizing humans assembling various IKEA furniture on the IKEA-ASM dataset.


翻译:我们展示了一种双路径方法,以识别视频中细微的相互作用。 我们以先前的双流方法的成功为基础,但通过引入单独的运动和物体探测路径,区分物体静态和动态的表达方式及其显露的相互作用。 然后,我们利用我们新的运动-引导引力融合模块,将运动路径中自下而上的特点与从物体探测中采集的特征结合起来,以了解一项行动的时间方面。 我们表明,我们的方法可以有效地将外观加以概括,并承认一个行为者与以前看不见的物体发生相互作用时的行动。 我们用某些东西- 点数- V2 数据集的组合动作识别任务来验证我们的方法,在这些数据集中,我们优于现有的最新技术方法。 我们还表明,我们的方法可以通过在识别在IKEA- ASM数据集上组装各种IKEA家具的人时展示最先进的表现,从而将现实世界任务概括化。

1
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
28+阅读 · 2021年4月14日
专知会员服务
59+阅读 · 2021年3月17日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
Arxiv
4+阅读 · 2019年8月7日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
Top
微信扫码咨询专知VIP会员