Research in action detection has grown in the recentyears, as it plays a key role in video understanding. Modelling the interactions (either spatial or temporal) between actors and their context has proven to be essential for this task. While recent works use spatial features with aggregated temporal information, this work proposes to use non-aggregated temporal information. This is done by adding an attention based method that leverages spatio-temporal interactions between elements in the scene along the clip.The main contribution of this work is the introduction of two cross attention blocks to effectively model the spatial relations and capture short range temporal interactions.Experiments on the AVA dataset show the advantages of the proposed approach that models spatio-temporal relations between relevant elements in the scene, outperforming other methods that model actor interactions with their context by +0.31 mAP.


翻译:行动探测研究近年来随着在视频理解方面发挥着关键作用,在行动探测中增加了研究,因为它在视频理解方面发挥着关键作用。模拟行为者之间及其背景之间的相互作用(空间或时间)已证明对这项任务至关重要。最近的工作使用了具有汇总时间信息的空间特征,但这项工作提议使用非汇总时间信息。这样做的方法是增加一种基于关注的方法,在片段上利用场景各元素之间的时空相互作用。这项工作的主要贡献是引入两个交叉关注块,以有效模拟空间关系并捕捉短距离时间互动。AVA数据集的经验表明,拟议方法的优点是,模型在现场相关元素之间存在时空关系,比通过+0.31 mAP模拟行为者与其背景互动的其他方法要好。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
0+阅读 · 2021年9月1日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
3+阅读 · 2018年6月14日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Top
微信扫码咨询专知VIP会员