论文题目:COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval 作者:卢浩宇,费楠益,霍宇琦,高一钊,卢志武,文继荣 通讯作者:卢志武

论文概述:大规模的单塔预训练模型,在跨模态检索中取得惊人的检索效果。遗憾的是,由于它们大多采用耗时的实参跨模态交互方式,检索效率非常低。最近,像CLIP和ALIGN这样具有高推理效率的双塔模型也表现出了良好的效果,然而,它们只考虑了模态之间的实例级对齐(因此仍有改进的余地)。为了克服这些限制,我们提出了一个新颖的协同式双塔视觉语言预训练模型,简称为COTS。总的来说,我们提出的COTS是通过加强模态间的交互来提高图像-文本检索效果的。除了通过动量对比学习进行实例级的对齐之外,我们还提出了两种额外的跨模态交互。(1) Token级的交互—在不使用实参交互模型的情况下,我们设计了一个遮蔽视觉语言建模(MVLM)的学习目标,其中变分自编码器用于视觉编码,可为每个图像生成视觉token级别的标记。(2) 任务级的交互—在文本到图像和图像到文本的检索任务之间设计了一个KL-对齐学习目标,其中每个任务的概率分布是用动量对比学习中的负样本队列计算的。在公平比较下,我们提出的COTS在所有双塔方法中取得了最好的结果,与最新的单塔方法相比,COTS表现出相当的能力(但推理速度快10,800倍)。同时,我们提出的COTS也适用于从文本到视频的检索,在广泛使用的MSR-VTT数据集上取得了目前最好的结果。

成为VIP会员查看完整内容
20

相关内容

预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。
【CVPR2022】基于序列对比学习的长视频帧方向动作表示
专知会员服务
9+阅读 · 2022年3月29日
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
27+阅读 · 2022年3月16日
【CVPR2022】高分辨率和多样化的视频-文本预训练模型
专知会员服务
9+阅读 · 2022年3月6日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
专知会员服务
12+阅读 · 2021年10月11日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
Allen AI提出MERLOT,视频理解领域新SOTA!
夕小瑶的卖萌屋
3+阅读 · 2022年2月8日
【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器
中国图象图形学学会CSIG
2+阅读 · 2021年10月20日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年6月9日
Arxiv
0+阅读 · 2022年6月9日
Arxiv
0+阅读 · 2022年6月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
21+阅读 · 2020年10月11日
VIP会员
相关VIP内容
【CVPR2022】基于序列对比学习的长视频帧方向动作表示
专知会员服务
9+阅读 · 2022年3月29日
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
27+阅读 · 2022年3月16日
【CVPR2022】高分辨率和多样化的视频-文本预训练模型
专知会员服务
9+阅读 · 2022年3月6日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
专知会员服务
12+阅读 · 2021年10月11日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
Arxiv
0+阅读 · 2022年6月9日
Arxiv
0+阅读 · 2022年6月9日
Arxiv
0+阅读 · 2022年6月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
21+阅读 · 2020年10月11日
微信扫码咨询专知VIP会员