【CVPR2022】跨模态检索的协同双流视觉语言预训练模型 - 专知VIP

会员服务 ·

7

预训练模型 · CVPR 2022 · 跨模态检索 ·

2022 年 4 月 21 日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文题目：COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval 作者：卢浩宇，费楠益，霍宇琦，高一钊，卢志武，文继荣通讯作者：卢志武

论文概述：大规模的单塔预训练模型，在跨模态检索中取得惊人的检索效果。遗憾的是，由于它们大多采用耗时的实参跨模态交互方式，检索效率非常低。最近，像CLIP和ALIGN这样具有高推理效率的双塔模型也表现出了良好的效果，然而，它们只考虑了模态之间的实例级对齐（因此仍有改进的余地）。为了克服这些限制，我们提出了一个新颖的协同式双塔视觉语言预训练模型，简称为COTS。总的来说，我们提出的COTS是通过加强模态间的交互来提高图像-文本检索效果的。除了通过动量对比学习进行实例级的对齐之外，我们还提出了两种额外的跨模态交互。(1) Token级的交互—在不使用实参交互模型的情况下，我们设计了一个遮蔽视觉语言建模（MVLM）的学习目标，其中变分自编码器用于视觉编码，可为每个图像生成视觉token级别的标记。(2) 任务级的交互—在文本到图像和图像到文本的检索任务之间设计了一个KL-对齐学习目标，其中每个任务的概率分布是用动量对比学习中的负样本队列计算的。在公平比较下，我们提出的COTS在所有双塔方法中取得了最好的结果，与最新的单塔方法相比，COTS表现出相当的能力（但推理速度快10,800倍）。同时，我们提出的COTS也适用于从文本到视频的检索，在广泛使用的MSR-VTT数据集上取得了目前最好的结果。

成为VIP会员查看完整内容

21

相关内容

预训练模型

预训练模型

预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务（例如，识别图片中的分类问题）。这种训练不容易执行，并且通常需要大量资源，超出许多可用于深度学习模型的人可用的资源。

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

机器之心

1+阅读 · 2021年12月21日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

基于弱监督学习的图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多信息局部相关模型的视频标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

图像标签关联性模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

新型互连网络的嵌入性与容错性研究

国家自然科学基金

0+阅读 · 2012年12月31日

Self-Promoted Supervision for Few-Shot Transformer

Arxiv

0+阅读 · 2022年6月9日

Unified Transformer Tracker for Object Tracking

Arxiv

0+阅读 · 2022年6月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

VIP会员

相关主题

预训练模型

跨模态检索

相关VIP内容

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

热门VIP内容

开通专知VIP会员享更多权益服务

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

人工智能与未来指挥

【伯克利博士论文】将大语言模型绑定至虚拟人格：实现人类行为模拟

稀疏自编码器综述：解释大语言模型的内部机制

相关资讯

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

机器之心

1+阅读 · 2021年12月21日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

相关基金

基于弱监督学习的图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多信息局部相关模型的视频标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

图像标签关联性模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

新型互连网络的嵌入性与容错性研究

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

Self-Promoted Supervision for Few-Shot Transformer

Arxiv

0+阅读 · 2022年6月9日

Unified Transformer Tracker for Object Tracking

Arxiv

0+阅读 · 2022年6月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

微信扫码咨询专知VIP会员