【ICCV2021】多层次对比学习的跨模态检索方法 - 专知VIP

会员服务 ·

2

对比学习 · 跨模态检索 · 论文 ·

2021 年 10 月 24 日

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

https://www.zhuanzhi.ai/paper/ed630ac577c1df4b28acd624e58a0432

当前主流的视频文本检索模型基本上都采用了基于 Transformer[1] 的多模态学习框架，主要可以分成 3 类：

Two-stream，文本和视觉信息分别通过独立的 Vision Transformer 和 Text Transformer，然后在多模态 Transformer 中融合，代表方法例如 ViLBERT[2]、LXMERT[3] 等。

Single-stream，文本和视觉信息只通过一个多模态 Transformer 进行融合，代表方法例如 VisualBERT[4]、Unicoder-VL[5] 等。

Dual-stream，文本和视觉信息仅仅分别通过独立的 Vision Transformer 和 Text Transformer，代表方法例如 COOT[6]、T2VLAD[7] 等。

由于类别 1 和类别 2 方法在时间开销上的限制，本文提出的 HiT（ Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval）[8] 模型采用了类别 3 Dual-stream 的 Transformer 框架，以满足大规模视频文本检索的需求。然而现有基于 Transformer 的多模态学习方法会有两个局限性：

Transformer 不同网络层的输出具有不同层次的特性，而现有方法并没有充分利用这一特性；

端到端模型受到显存容量的限制，无法在一个 batch 内利用较多的负样本。

针对上述 2 个局限，本文提出（1）层次跨模态对比匹配（Hierarchical Cross-modal Contrast Matching，HCM），对 Transformer 的底层网络和高层网络分别进行对比匹配，解决局限 1 的问题；（2）引入 MoCo[9] 的动量更新机制到跨模态对比匹配中，使跨模态对比匹配的过程中能充分利用更多的负样本，解决局限 2 的问题。实验表明 HiT 在多个视频-文本检索数据集上取得 SOTA 的效果。

HiT 模型主要有两个创新点：

提出层次跨模态对比匹配 HCM。Transformer 的底层和高层侧重编码不同层次的信息，以文本输入和 BERT[10] 模型为例，底层 Transformer 侧重于编码相对简单的基本语法信息，而高层 Transformer 则侧重于编码相对复杂的高级语义信息。因此使用 HCM 进行多次对比匹配，可以利用 Transformer 这一层次特性，从而得到更好的视频文本检索性能；

引入 MoCo 的动量更新机制到跨模态对比匹配中，提出动量跨模态对比 MCC。MCC 为文本信息和视觉信息分别维护了一个容量很大并且表征一致的负样本队列，从而克服端到端训练方法受到显存容量的限制，只能在一个相对较小的 batch 内寻找负样本这一缺点，利用更多的负例，从而得到更好的视频和文本表征。

成为VIP会员查看完整内容

23

相关内容

对比学习

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法，它通过学习编码来构建表征，编码使两个事物相似或不同

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【ICCV2021】参数化对比学习

专知会员服务

33+阅读 · 2021年7月27日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【KDD2021 】基于协同对比学习的自监督异质图神经网络

专知会员服务

38+阅读 · 2021年5月28日

【KDD2021】具有共同对比学习的自监督异构图神经网络

专知会员服务

41+阅读 · 2021年5月24日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

专知会员服务

42+阅读 · 2021年2月24日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

开放知识图谱

14+阅读 · 2020年9月24日

KDD20 | 对比学习和负采样技术专题

KDD20 | 对比学习和负采样技术专题

AINLP

6+阅读 · 2020年8月31日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知

5+阅读 · 2020年6月25日

基于表示模型的文本匹配方法

基于表示模型的文本匹配方法

AINLP

7+阅读 · 2020年5月8日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

机器之心

7+阅读 · 2018年4月14日

Schmebulock's consensus

Arxiv

0+阅读 · 2021年12月17日

HODOR: High-level Object Descriptors for Object Re-segmentation in Video Learned from Static Images

Arxiv

0+阅读 · 2021年12月16日

Dense Contrastive Visual-Linguistic Pretraining

Arxiv

6+阅读 · 2021年9月24日

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

Arxiv

7+阅读 · 2021年8月18日

Zero-Shot Instance Segmentation

Arxiv

8+阅读 · 2021年6月1日

Semantic Grouping Network for Video Captioning

Arxiv

8+阅读 · 2021年2月1日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

A sequential guiding network with attention for image captioning

A sequential guiding network with attention for image captioning

Arxiv

5+阅读 · 2019年2月8日

Learning Instance Segmentation by Interaction

Arxiv

6+阅读 · 2018年6月21日

Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning

Arxiv

6+阅读 · 2018年4月9日

VIP会员

相关主题

跨模态检索

相关VIP内容

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【ICCV2021】参数化对比学习

专知会员服务

33+阅读 · 2021年7月27日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【KDD2021 】基于协同对比学习的自监督异质图神经网络

专知会员服务

38+阅读 · 2021年5月28日

【KDD2021】具有共同对比学习的自监督异构图神经网络

专知会员服务

41+阅读 · 2021年5月24日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

专知会员服务

42+阅读 · 2021年2月24日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

开放知识图谱

14+阅读 · 2020年9月24日

KDD20 | 对比学习和负采样技术专题

KDD20 | 对比学习和负采样技术专题

AINLP

6+阅读 · 2020年8月31日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知

5+阅读 · 2020年6月25日

基于表示模型的文本匹配方法

基于表示模型的文本匹配方法

AINLP

7+阅读 · 2020年5月8日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

机器之心

7+阅读 · 2018年4月14日

相关论文

Schmebulock's consensus

Arxiv

0+阅读 · 2021年12月17日

HODOR: High-level Object Descriptors for Object Re-segmentation in Video Learned from Static Images

Arxiv

0+阅读 · 2021年12月16日

Dense Contrastive Visual-Linguistic Pretraining

Arxiv

6+阅读 · 2021年9月24日

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

Arxiv

7+阅读 · 2021年8月18日

Zero-Shot Instance Segmentation

Arxiv

8+阅读 · 2021年6月1日

Semantic Grouping Network for Video Captioning

Arxiv

8+阅读 · 2021年2月1日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

A sequential guiding network with attention for image captioning

A sequential guiding network with attention for image captioning

Arxiv

5+阅读 · 2019年2月8日

Learning Instance Segmentation by Interaction

Arxiv

6+阅读 · 2018年6月21日

Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning

Arxiv

6+阅读 · 2018年4月9日

微信扫码咨询专知VIP会员