时空表示学习是视频自监督表示的关键。目前的学习方法主要是对比学习和前置任务。然而,这些方法都是通过潜在空间中的特征相似度来判别采样实例来学习表征,而忽略了学习表征的中间状态,从而限制了整体性能。在这项工作中,考虑采样实例的相似程度作为中间状态,我们提出了一个新的前置任务-时空重叠率(spatial - temporal overlap rate, STOR)预测。它源于人类能够分辨视频在空间和时间上的重叠率。这个任务鼓励模型区分两个生成样本的STOR来学习表示。此外,我们采用结合前置任务和对比学习的联合优化方法来进一步增强时空表示学习。我们还研究了所提出方案中各组成部分的相互影响。大量实验表明,本文提出的语料存储任务对对比学习和托词学习都有较好的效果。联合优化方案可以显著提高视频理解的时空表征。代码可以在https://github.com/Katou2/CSTP上找到。

https://www.zhuanzhi.ai/paper/c0dee275900d84eb9dddb0d36111a0ed

成为VIP会员查看完整内容
19

相关内容

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法,它通过学习编码来构建表征,编码使两个事物相似或不同
【AAAI2022】(2.5+1)D时空场景图用于视频问答
专知会员服务
23+阅读 · 2022年2月21日
【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
42+阅读 · 2022年1月6日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【AAAI2022】通过自适应聚类关系建模的无监督行人再识别
专知会员服务
9+阅读 · 2021年10月6日
专知会员服务
22+阅读 · 2021年5月1日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
AAAI2021 | DTGRM:具有自监督时间关系建模的动作分割
专知会员服务
14+阅读 · 2020年12月29日
【AAAI2021】 层次图胶囊网络
专知会员服务
82+阅读 · 2020年12月18日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
论文浅尝 | DeCLUTR: 无监督文本表示的深度对比学习
开放知识图谱
4+阅读 · 2020年10月4日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
Arxiv
7+阅读 · 2021年6月21日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
【AAAI2022】(2.5+1)D时空场景图用于视频问答
专知会员服务
23+阅读 · 2022年2月21日
【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
42+阅读 · 2022年1月6日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【AAAI2022】通过自适应聚类关系建模的无监督行人再识别
专知会员服务
9+阅读 · 2021年10月6日
专知会员服务
22+阅读 · 2021年5月1日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
AAAI2021 | DTGRM:具有自监督时间关系建模的动作分割
专知会员服务
14+阅读 · 2020年12月29日
【AAAI2021】 层次图胶囊网络
专知会员服务
82+阅读 · 2020年12月18日
微信扫码咨询专知VIP会员