Video self-supervised learning is a challenging task, which requires significant expressive power from the model to leverage rich spatial-temporal knowledge and generate effective supervisory signals from large amounts of unlabeled videos. However, existing methods fail to increase the temporal diversity of unlabeled videos and ignore elaborately modeling multi-scale temporal dependencies in an explicit way. To overcome these limitations, we take advantage of the multi-scale temporal dependencies within videos and proposes a novel video self-supervised learning framework named Temporal Contrastive Graph Learning (TCGL), which jointly models the inter-snippet and intra-snippet temporal dependencies for temporal representation learning with a hybrid graph contrastive learning strategy. Specifically, a Spatial-Temporal Knowledge Discovering (STKD) module is first introduced to extract motion-enhanced spatial-temporal representations from videos based on the frequency domain analysis of discrete cosine transform. To explicitly model multi-scale temporal dependencies of unlabeled videos, our TCGL integrates the prior knowledge about the frame and snippet orders into graph structures, i.e., the intra-/inter- snippet Temporal Contrastive Graphs (TCG). Then, specific contrastive learning modules are designed to maximize the agreement between nodes in different graph views. To generate supervisory signals for unlabeled videos, we introduce an Adaptive Snippet Order Prediction (ASOP) module which leverages the relational knowledge among video snippets to learn the global context representation and recalibrate the channel-wise features adaptively. Experimental results demonstrate the superiority of our TCGL over the state-of-the-art methods on large-scale action recognition and video retrieval benchmarks.


翻译:视频自我监督学习是一项具有挑战性的任务,它要求模型具有巨大的表达力,以利用丰富的时空空间知识,并从大量未贴标签的视频中生成有效的监管信号。然而,现有方法未能增加未贴标签视频的时间多样性,并明显忽视精心建模的多尺度时间依赖性。为了克服这些限制,我们利用视频中多尺度的时间依赖性,并提议一个新型视频自我监督学习框架,名为“时空对流图像学习”(TCGL),它联合模拟机场间和机场内时间依赖性,以便用混合图形对比学习的学习策略来学习时际代表性功能。具体地说,一个空间对时间依赖性知识的拆解模块(STKD)首先从视频中提取运动增强的空间时空表达力,基于离心变的频域动作分析。在未贴标签的视频中明确建模多尺度的时间依赖性时间,我们的技术合作时间依赖性图像模型将关于框架和机场内时间依赖性关系序列的前项知识整合成图表结构结构结构, i.Slodal-dealal-dealdealalalalalalalalal-deal-deal-dealtialismalal-deal-deal-deal-de-dealismalismal-deal-deal-deal-deal-deal-deal-deal-de-deal-deal-dealisquilisal-de-I i-deal-slation theslational-intra i-i-deal-intra-intra、i-I-ind-indal-deal-I-I-I-deal-I-I-I-I-I-I-I-I-I-I-I-I-I-Idal-Idal-I-I-I-inal-Idal-I-I-I-I-I-I-Idal-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I

0
下载
关闭预览

相关内容

【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
79+阅读 · 2020年6月11日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
73+阅读 · 2020年4月24日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Graph: 表现再差,也不进行Pre-Training? Self-Supervised Learning真香!
机器学习与推荐算法
3+阅读 · 2020年6月30日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Arxiv
14+阅读 · 2021年8月5日
VIP会员
相关资讯
Graph: 表现再差,也不进行Pre-Training? Self-Supervised Learning真香!
机器学习与推荐算法
3+阅读 · 2020年6月30日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Top
微信扫码咨询专知VIP会员