Localizing persons and recognizing their actions from videos is a challenging task towards high-level video understanding. Recent advances have been achieved by modeling direct pairwise relations between entities. In this paper, we take one step further, not only model direct relations between pairs but also take into account indirect higher-order relations established upon multiple elements. We propose to explicitly model the Actor-Context-Actor Relation, which is the relation between two actors based on their interactions with the context. To this end, we design an Actor-Context-Actor Relation Network (ACAR-Net) which builds upon a novel High-order Relation Reasoning Operator and an Actor-Context Feature Bank to enable indirect relation reasoning for spatio-temporal action localization. Experiments on AVA and UCF101-24 datasets show the advantages of modeling actor-context-actor relations, and visualization of attention maps further verifies that our model is capable of finding relevant higher-order relations to support action detection. Notably, our method ranks first in the AVA-Kineticsaction localization task of ActivityNet Challenge 2020, out-performing other entries by a significant margin (+6.71mAP). Training code and models will be available at https://github.com/Siyu-C/ACAR-Net.


翻译:在本文中,我们进一步迈出一步,不仅在对对夫妇之间建立直接关系模型,而且考虑到在多个要素上建立的间接更高层次关系;我们提议以两个行为者与背景互动为基础,明确模拟演员-Context-Actor Relation关系,这是两个行为者之间的关系;为此,我们设计了一个演员-Context-Actor Relation Net(ACAR-Net)网络,这个网络以创新的《高秩序关系解释操作员》和《行为者-Text Feture Bank》为基础,为空间-时空行动本地化提供间接关系推理。关于AVA和UCFC101-24的实验展示了行为-Context-Actor关系模型的优点,以及关注地图的直观化进一步证实我们的模型能够找到相关的更高秩序关系以支持行动探测。 值得注意的是,我们的方法在AVA-Kinetical Contracational-Agreative-C commexmexmexmexional 2020, SA-Dal-Ambregresulational-Ambal-ADal-Ambreal-C) exmal exmal exmal exmal exmal exmexmal exmal exmexmexmexmexmexmexmoluts.

1
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
【电子书】机器学习实战(Machine Learning in Action),附PDF
专知会员服务
126+阅读 · 2019年11月25日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
相关VIP内容
【电子书】机器学习实战(Machine Learning in Action),附PDF
专知会员服务
126+阅读 · 2019年11月25日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
相关资讯
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员