【ICCV2021】模态视频表示的跨模态对比学习 - 专知VIP

会员服务 ·

2

对比学习 · 跨模态嵌入 · ICCV 2021 ·

2021 年 10 月 4 日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

对比学习允许我们通过对比消极样本中的正对来灵活地定义强大的损失函数。最近，该原理也被用于学习视频和文本的跨模态嵌入，但没有充分发挥其潜力。特别是之前的损失没有考虑模态内的相似性，导致嵌入效率低下，因为相同的内容被映射到嵌入空间的多个点上。在CrossCLR中，我们提出了一个对比损失来解决这个问题。此外，我们根据输入嵌入定义了高度相关的样本集，并将其从负样本中排除，以避免假负样本性问题。我们表明，这些原则持续地提高了学习嵌入的质量。通过CrossCLR学习的联合嵌入扩展了Youcook2和LSMDC数据集上的视频文本检索和Youcook2数据集上的视频字幕的技术水平。我们还通过学习其他对模式的改进的关节嵌入来证明这个概念的通用性。

https://www.zhuanzhi.ai/paper/91484725dec5fe4f3db2e6bb2ca9a448

成为VIP会员查看完整内容

16

相关内容

对比学习

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法，它通过学习编码来构建表征，编码使两个事物相似或不同

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【NeurIPS 2021】深度上下文视频压缩

专知会员服务

8+阅读 · 2021年10月4日

【ICCV2021】通过动作外观对齐的元适应无监督的少样本动作识别

专知会员服务

13+阅读 · 2021年10月1日

【ICCV2021】参数化对比学习

专知会员服务

33+阅读 · 2021年7月27日

【KDD2021】多层次领域知识在分子图上的对比学习

专知会员服务

39+阅读 · 2021年6月13日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【NeurIPS2020】无限可能的联合对比学习

【NeurIPS2020】无限可能的联合对比学习

专知

3+阅读 · 2020年10月2日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Cross-Modal & Metric Learning 跨模态检索专题-2

Cross-Modal & Metric Learning 跨模态检索专题-2

AINLP

5+阅读 · 2020年5月21日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

BERT模型进军视频领域，看你和面就知会做蛋糕

BERT模型进军视频领域，看你和面就知会做蛋糕

机器之心

10+阅读 · 2019年9月20日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

CVPR 2018 论文概述：有损压缩视频的多帧质量增强方法

CVPR 2018 论文概述：有损压缩视频的多帧质量增强方法

极市平台

4+阅读 · 2018年3月19日

DABS: A Domain-Agnostic Benchmark for Self-Supervised Learning

Arxiv

0+阅读 · 2021年11月23日

CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations

Arxiv

10+阅读 · 2021年9月30日

Image-to-Image Retrieval by Learning Similarity between Scene Graphs

Arxiv

21+阅读 · 2020年12月29日

KD3A: Unsupervised Multi-Source Decentralized Domain Adaptation via Knowledge Distillation

Arxiv

10+阅读 · 2020年12月8日

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Arxiv

6+阅读 · 2020年10月26日

Contrastive Bidirectional Transformer for Temporal Representation Learning

Contrastive Bidirectional Transformer for Temporal Representation Learning

Arxiv

3+阅读 · 2019年6月13日

Combination of Multiple Global Descriptors for Image Retrieval

Combination of Multiple Global Descriptors for Image Retrieval

Arxiv

3+阅读 · 2019年4月18日

Learning Discriminative Motion Features Through Detection

Learning Discriminative Motion Features Through Detection

Arxiv

3+阅读 · 2018年12月11日

Joint Image Captioning and Question Answering

Arxiv

6+阅读 · 2018年5月22日

Content based video retrieval

Arxiv

3+阅读 · 2012年11月20日

VIP会员

相关主题

跨模态嵌入

相关VIP内容

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【NeurIPS 2021】深度上下文视频压缩

专知会员服务

8+阅读 · 2021年10月4日

【ICCV2021】通过动作外观对齐的元适应无监督的少样本动作识别

专知会员服务

13+阅读 · 2021年10月1日

【ICCV2021】参数化对比学习

专知会员服务

33+阅读 · 2021年7月27日

【KDD2021】多层次领域知识在分子图上的对比学习

专知会员服务

39+阅读 · 2021年6月13日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【NeurIPS2020】无限可能的联合对比学习

【NeurIPS2020】无限可能的联合对比学习

专知

3+阅读 · 2020年10月2日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Cross-Modal & Metric Learning 跨模态检索专题-2

Cross-Modal & Metric Learning 跨模态检索专题-2

AINLP

5+阅读 · 2020年5月21日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

BERT模型进军视频领域，看你和面就知会做蛋糕

BERT模型进军视频领域，看你和面就知会做蛋糕

机器之心

10+阅读 · 2019年9月20日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

CVPR 2018 论文概述：有损压缩视频的多帧质量增强方法

CVPR 2018 论文概述：有损压缩视频的多帧质量增强方法

极市平台

4+阅读 · 2018年3月19日

相关论文

DABS: A Domain-Agnostic Benchmark for Self-Supervised Learning

Arxiv

0+阅读 · 2021年11月23日

CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations

Arxiv

10+阅读 · 2021年9月30日

Image-to-Image Retrieval by Learning Similarity between Scene Graphs

Arxiv

21+阅读 · 2020年12月29日

KD3A: Unsupervised Multi-Source Decentralized Domain Adaptation via Knowledge Distillation

Arxiv

10+阅读 · 2020年12月8日

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Arxiv

6+阅读 · 2020年10月26日

Contrastive Bidirectional Transformer for Temporal Representation Learning

Contrastive Bidirectional Transformer for Temporal Representation Learning

Arxiv

3+阅读 · 2019年6月13日

Combination of Multiple Global Descriptors for Image Retrieval

Combination of Multiple Global Descriptors for Image Retrieval

Arxiv

3+阅读 · 2019年4月18日

Learning Discriminative Motion Features Through Detection

Learning Discriminative Motion Features Through Detection

Arxiv

3+阅读 · 2018年12月11日

Joint Image Captioning and Question Answering

Arxiv

6+阅读 · 2018年5月22日

Content based video retrieval

Arxiv

3+阅读 · 2012年11月20日

微信扫码咨询专知VIP会员