Attempt to fully discover the temporal diversity and global-local chronological characteristics for self-supervised video representation learning, this work takes advantage of the temporal structure of videos and further proposes a novel self-supervised method named Temporal Contrastive Graph (TCG). In contrast to the existing methods that randomly shuffle the video frames or video snippets within a video, the TCG roots in a hybrid graph contrastive learning strategy to regard the inter-snippet and intra-snippet temporal relationships as self-supervision signals for temporal representation learning. To increase the temporal diversity of features, the TCG integrates the prior knowledge about the frame and snippet orders into temporal contrastive graphs, i.e., the intra-/inter- snippet temporal contrastive graph modules. By randomly removing edges and masking node features of the intra-snippet graphs or inter-snippet graphs, the TCG can generate different correlated graph views. Then, specific contrastive losses are designed to maximize the agreement between node embeddings in different views. To learn the global context representation and recalibrate the channel-wise features adaptively, we introduce an adaptive video snippet order prediction module, which leverages the relational knowledge among video snippets to predict the actual snippet orders. Experimental results demonstrate the superiority of our TCG over the state-of-the-art methods on large-scale action recognition and video retrieval benchmarks.


翻译:为了充分发现自我监督的视频代表学习的时间多样性和全球-本地时间顺序特点,这项工作利用视频的时间结构结构,进一步提出一种自监督的新方法,名为“时间对比图”。 与在视频中随机冲洗视频框架或视频片断的现有方法相比,TCG根根植于一个混合图形对比学习战略,将片段间和片段内时间关系视为自监督时间代表学习的自我监督信号。为了增加时间特征的多样性,TCG将先前关于框架和片断顺序的知识整合到时间对比图中,即内部/间间间时间对比图模块。通过随机去除片段图或间片段图的边缘并遮盖节点特征,TCG可以产生不同的对比性图表观点。然后,具体对比性损失旨在最大限度地实现不同观点节点嵌入的一致。 学习全球背景和片段间框架和片段定序,即内部/间时间对比图形模块内部的相对对比式图形模型模块,从而展示了我们之间在图像级上进行大幅调整的动态定位的图像- 策略,从而展示了我们之间在图像级上进行升级的升级的图像- 智能- 预测的图像- 机序中,从而展示了我们在视频- 方向上显示- 的图像- 智能- 的图像- 上显示- 智能- 机序上显示- 显示- 的图像- 智能- 智能- 智能- 的图像- 上显示- 的图像- 的图像- 的图像- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 显示-智能- 动作- 显示- 显示- 显示- 动作- 上- 动作- 显示- 显示- 显示- 动作- 机序- 排序- 动作- 机序- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 上- 动作- 动作- 动作- 动作- 动作-智能- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 动作- 的

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
79+阅读 · 2020年6月11日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
53+阅读 · 2019年12月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Arxiv
5+阅读 · 2018年4月30日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员