【CVPR2022】跨模态检索的协同双流视觉语言预训练模型 - 专知

会员服务 ·

0

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

2022 年 4 月 22 日 专知

论文题目：COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

作者：卢浩宇，费楠益，霍宇琦，高一钊，卢志武，文继荣

通讯作者：卢志武

论文概述：大规模的单塔预训练模型，在跨模态检索中取得惊人的检索效果。遗憾的是，由于它们大多采用耗时的实参跨模态交互方式，检索效率非常低。最近，像CLIP和ALIGN这样具有高推理效率的双塔模型也表现出了良好的效果，然而，它们只考虑了模态之间的实例级对齐（因此仍有改进的余地）。为了克服这些限制，我们提出了一个新颖的协同式双塔视觉语言预训练模型，简称为COTS。总的来说，我们提出的COTS是通过加强模态间的交互来提高图像-文本检索效果的。除了通过动量对比学习进行实例级的对齐之外，我们还提出了两种额外的跨模态交互。(1)Token级的交互—在不使用实参交互模型的情况下，我们设计了一个遮蔽视觉语言建模（MVLM）的学习目标，其中变分自编码器用于视觉编码，可为每个图像生成视觉token级别的标记。(2)任务级的交互—在文本到图像和图像到文本的检索任务之间设计了一个KL-对齐学习目标，其中每个任务的概率分布是用动量对比学习中的负样本队列计算的。在公平比较下，我们提出的COTS在所有双塔方法中取得了最好的结果，与最新的单塔方法相比，COTS表现出相当的能力（但推理速度快10,800倍）。同时，我们提出的COTS也适用于从文本到视频的检索，在广泛使用的MSR-VTT数据集上取得了目前最好的结果。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“COTS” 就可以获取《【CVPR2022】跨模态检索的协同双流视觉语言预训练模型》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资料

登录查看更多

1

相关内容

视觉语言预训练

视觉语言预训练

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CVPR2022】基于压缩域的端到端通用事件表示学习

【CVPR2022】基于压缩域的端到端通用事件表示学习

专知

0+阅读 · 2022年4月24日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知

4+阅读 · 2022年4月23日

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知

4+阅读 · 2022年4月2日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

专知

1+阅读 · 2022年3月13日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

多深度融合感知的多视点视频联合处理与高效编码

国家自然科学基金

1+阅读 · 2014年12月31日

面向协同的设计重用启发模型

国家自然科学基金

0+阅读 · 2013年12月31日

三维模型在异构空间中的语义迁移方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

安全文本隐写理论与方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

高敏捷性的融合协同及部分中继协同主用户检测研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于压缩感知融合深度的三维视频编码关键技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法

国家自然科学基金

0+阅读 · 2012年12月31日

基于耦合判别和协作稀疏表示的图像表征和标注研究

国家自然科学基金

1+阅读 · 2012年12月31日

柱撑膨润土/纳米铁协同去除氯代有机污染物的研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于MDL原理的图像语义特征分析方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Pre-training Methods in Information Retrieval

Arxiv

16+阅读 · 2021年11月27日

Sequence Level Contrastive Learning for Text Summarization

Sequence Level Contrastive Learning for Text Summarization

Arxiv

14+阅读 · 2021年9月24日

Cross-Modal Discrete Representation Learning

Arxiv

18+阅读 · 2021年6月10日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Arxiv

14+阅读 · 2020年3月10日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

Few-shot acoustic event detection via meta-learning

Arxiv

26+阅读 · 2020年2月21日

Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

Arxiv

78+阅读 · 2019年11月10日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

VIP会员

相关主题

视觉语言预训练

跨模态检索

预训练模型

相关VIP内容

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

【CVPR2022】基于压缩域的端到端通用事件表示学习

【CVPR2022】基于压缩域的端到端通用事件表示学习

专知

0+阅读 · 2022年4月24日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知

4+阅读 · 2022年4月23日

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知

4+阅读 · 2022年4月2日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

专知

1+阅读 · 2022年3月13日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

相关基金

多深度融合感知的多视点视频联合处理与高效编码

国家自然科学基金

1+阅读 · 2014年12月31日

面向协同的设计重用启发模型

国家自然科学基金

0+阅读 · 2013年12月31日

三维模型在异构空间中的语义迁移方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

安全文本隐写理论与方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

高敏捷性的融合协同及部分中继协同主用户检测研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于压缩感知融合深度的三维视频编码关键技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法

国家自然科学基金

0+阅读 · 2012年12月31日

基于耦合判别和协作稀疏表示的图像表征和标注研究

国家自然科学基金

1+阅读 · 2012年12月31日

柱撑膨润土/纳米铁协同去除氯代有机污染物的研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于MDL原理的图像语义特征分析方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Pre-training Methods in Information Retrieval

Arxiv

16+阅读 · 2021年11月27日

Sequence Level Contrastive Learning for Text Summarization

Sequence Level Contrastive Learning for Text Summarization

Arxiv

14+阅读 · 2021年9月24日

Cross-Modal Discrete Representation Learning

Arxiv

18+阅读 · 2021年6月10日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Arxiv

14+阅读 · 2020年3月10日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

Few-shot acoustic event detection via meta-learning

Arxiv

26+阅读 · 2020年2月21日

Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

Arxiv

78+阅读 · 2019年11月10日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

大家都在搜

大型语言模型

CMU博士论文

软件无线电

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员