Video-Text Retrieval has been a hot research topic with the growth of multimedia data on the internet. Transformer for video-text learning has attracted increasing attention due to its promising performance. However, existing cross-modal transformer approaches typically suffer from two major limitations: 1) Exploitation of the transformer architecture where different layers have different feature characteristics is limited; 2) End-to-end training mechanism limits negative sample interactions in a mini-batch. In this paper, we propose a novel approach named Hierarchical Transformer (HiT) for video-text retrieval. HiT performs Hierarchical Cross-modal Contrastive Matching in both feature-level and semantic-level, achieving multi-view and comprehensive retrieval results. Moreover, inspired by MoCo, we propose Momentum Cross-modal Contrast for cross-modal learning to enable large-scale negative sample interactions on-the-fly, which contributes to the generation of more precise and discriminative representations. Experimental results on the three major Video-Text Retrieval benchmark datasets demonstrate the advantages of our method.


翻译:随着互联网多媒体数据的增长,视频-文字检索是一个热门的研究主题。视频-文字学习变异器因其有希望的性能而引起越来越多的关注。但是,现有的跨模式变异器方法通常受到两大限制:(1) 利用不同层次具有不同特征的变异器结构有限;(2) 端到端培训机制限制小型批量的负面抽样互动。在本文中,我们提议了一种名为“高层次变异器(HiT)”的新颖方法,用于视频-文字检索。HiT在地貌和语义层面都进行等级跨模式的交叉对比,实现多视图和综合检索结果。此外,在Moco的启发下,我们提议采用超模式跨模式学习,以促成大规模在飞地上进行负面的抽样互动,这有助于产生更精确、更具有歧视性的描述。三种主要视频-图像检索基准数据集的实验结果展示了我们的方法的优点。

7
下载
关闭预览

相关内容

最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
0+阅读 · 2021年10月13日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
5+阅读 · 2020年10月2日
Arxiv
19+阅读 · 2020年7月21日
Arxiv
5+阅读 · 2019年8月22日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
VIP会员
相关资讯
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
相关论文
Arxiv
0+阅读 · 2021年10月13日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
5+阅读 · 2020年10月2日
Arxiv
19+阅读 · 2020年7月21日
Arxiv
5+阅读 · 2019年8月22日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Top
微信扫码咨询专知VIP会员