Temporal relational modeling in video is essential for human action understanding, such as action recognition and action segmentation. Although Graph Convolution Networks (GCNs) have shown promising advantages in relation reasoning on many tasks, it is still a challenge to apply graph convolution networks on long video sequences effectively. The main reason is that large number of nodes (i.e., video frames) makes GCNs hard to capture and model temporal relations in videos. To tackle this problem, in this paper, we introduce an effective GCN module, Dilated Temporal Graph Reasoning Module (DTGRM), designed to model temporal relations and dependencies between video frames at various time spans. In particular, we capture and model temporal relations via constructing multi-level dilated temporal graphs where the nodes represent frames from different moments in video. Moreover, to enhance temporal reasoning ability of the proposed model, an auxiliary self-supervised task is proposed to encourage the dilated temporal graph reasoning module to find and correct wrong temporal relations in videos. Our DTGRM model outperforms state-of-the-art action segmentation models on three challenging datasets: 50Salads, Georgia Tech Egocentric Activities (GTEA), and the Breakfast dataset. The code is available at https://github.com/redwang/DTGRM.


翻译:视频中的时间关系建模对于理解人类行动至关重要,例如行动识别和行为分割。虽然图表演动网络(GCNs)在很多任务的相关推理中显示出了大有希望的优势,但有效地应用长视频序列中的图变图网络仍然是一项挑战,主要原因是大量节点(即视频框)使GCNs难以捕捉和模拟视频中的时际关系。为了解决这一问题,我们在本文件中引入了一个有效的GCN模块,即动态图解解析模块(DTGRM),旨在在不同时间跨度的视频框架之间建模时间关系和依赖关系模型。特别是,我们通过建立多层次的变相时间图来捕捉和模拟时间关系,节点代表视频中不同时刻的框架。此外,为了提高拟议模型的时间推理能力,我们提议了一项辅助性自我监督任务,以鼓励三角时间图推理推理模块在视频中发现和纠正错误的时间关系。我们的DGRMM模型超越了不同时间框架之间的时间关系和依赖性关系。我们的视频框架,我们通过建立多层次的多层次的扩展时间线图图图图图图图图图图图图图图解模型,在三个具有挑战性GEGeorgia/GRACRCRCRCRCRDRDRDRDGRDS/CRDGRDGRDMDM 3中的数据节码。

13
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
39+阅读 · 2020年12月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
已删除
将门创投
3+阅读 · 2020年8月3日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年2月15日
Arxiv
6+阅读 · 2018年6月21日
VIP会员
相关VIP内容
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
39+阅读 · 2020年12月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
相关资讯
已删除
将门创投
3+阅读 · 2020年8月3日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员