Real-world videos contain many complex actions with inherent relationships between action classes. In this work, we propose an attention-based architecture that models these action relationships for the task of temporal action localization in untrimmed videos. As opposed to previous works that leverage video-level co-occurrence of actions, we distinguish the relationships between actions that occur at the same time-step and actions that occur at different time-steps (i.e. those which precede or follow each other). We define these distinct relationships as action dependencies. We propose to improve action localization performance by modeling these action dependencies in a novel attention-based Multi-Label Action Dependency (MLAD)layer. The MLAD layer consists of two branches: a Co-occurrence Dependency Branch and a Temporal Dependency Branch to model co-occurrence action dependencies and temporal action dependencies, respectively. We observe that existing metrics used for multi-label classification do not explicitly measure how well action dependencies are modeled, therefore, we propose novel metrics that consider both co-occurrence and temporal dependencies between action classes. Through empirical evaluation and extensive analysis, we show improved performance over state-of-the-art methods on multi-label action localization benchmarks(MultiTHUMOS and Charades) in terms of f-mAP and our proposed metric.


翻译:现实世界视频包含许多复杂的行动,具有行动类别之间固有的内在关系。 在这项工作中,我们建议一个基于关注的架构,在未剪动的视频中为时间行动定位任务模拟这些行动关系。与以前利用视频级行动共同发生的工作相比,我们区分同时发生的行动和在不同时间步骤(即先行或后行)发生的行动之间的关系。我们将这些不同关系定义为行动依赖关系。我们建议通过在新的关注型多周期行动依赖(MLAD)中建模这些行动依赖关系来改进行动本地化绩效。与以前利用视频级共同行动共同发生的工作不同,我们区分同时发生的行动和在不同时间步骤(即先行或后行的行动)发生的行动之间的关系。我们发现,目前用于多标签分类的衡量标准并不明确衡量行动依赖性,因此,我们提出了新的衡量标准,其中既考虑关注关联性,又考虑不同时间依赖性的多周期(MLADAD) 。通过对业绩和多年度评估方法进行我们之间业绩评估并展示行动基准。

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
67+阅读 · 2020年3月9日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
7+阅读 · 2020年3月13日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
7+阅读 · 2020年3月13日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
Top
微信扫码咨询专知VIP会员