【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval - 专知VIP

会员服务 ·

9

CVPR 2022 · 多模态Transformer · 计算机视觉 · 论文 ·

2022 年 3 月 6 日

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
● 从视频数据中进行的多模态学习最近受到了越来越多的关注，因为它允许训练语义上有意义的嵌入，而无需人工标注，从而实现了零镜头检索和分类等任务。在这项工作中，我们提出了一种多模态、模态不可知的融合Transformer方法，它学习在多种模态之间交换信息，例如视频、音频和文本，并将它们集成到一个连接的多模态表示中，以获得一个聚合多模态时间信息的嵌入。我们建议在训练系统的同时对所有的东西进行组合损失，无论是单个模式还是成对的模式，明确地排除任何附加的东西，如位置或模式编码。在测试时，得到的模型可以处理和融合任意数量的输入模式。此外，变压器的隐式特性允许处理不同长度的输入。为了评估所提出的方法，我们在大规模的HowTo100M数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果嵌入空间，获得了在零拍视频检索和零拍视频动作定位方面的最先进的结果。
● 论文链接：https://arxiv.org/abs/2112.04446
● 作者单位：法兰克福歌德大学、哥伦比亚大学、麻省理工学院、IBM、德州大学奥斯汀分校等

成为VIP会员查看完整内容

29

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

63+阅读 · 2021年10月14日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知会员服务

30+阅读 · 2020年10月9日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer

7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer

机器之心

0+阅读 · 2022年1月16日

聚焦视频文本检索：一文概览视频文本检索任务最新研究进展

聚焦视频文本检索：一文概览视频文本检索任务最新研究进展

PaperWeekly

1+阅读 · 2022年1月5日

IROS 2021 | PTT：把Transformer应用到3D点云目标跟踪任务

IROS 2021 | PTT：把Transformer应用到3D点云目标跟踪任务

CVer

0+阅读 · 2021年12月30日

豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021！一层8个token比1024个还好用

豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021！一层8个token比1024个还好用

极市平台

0+阅读 · 2021年12月12日

GNN + Transformer = GraphFormers

GNN + Transformer = GraphFormers

图与推荐

6+阅读 · 2021年11月24日

【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器

【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器

中国图象图形学学会CSIG

2+阅读 · 2021年10月20日

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

机器之心

1+阅读 · 2021年3月16日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

非受控场景下融合结构与纹理信息的人脸人耳多模态识别

国家自然科学基金

0+阅读 · 2014年12月31日

多模态融合的大规模网络视频名人标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于TP模型变换方法的视觉伺服控制技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

面向多模态信息有效利用的机器学习方法研究

国家自然科学基金

5+阅读 · 2012年12月31日

融合词袋模型与空间关联的高分辨率遥感图像分类方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向视觉残障者的图像的力/触觉表达与再现方法研究

国家自然科学基金

0+阅读 · 2010年12月31日

基于视频语义理解的艺术风格化研究

国家自然科学基金

1+阅读 · 2009年12月31日

文本语义模型和子空间聚类研究

国家自然科学基金

1+阅读 · 2009年12月31日

视频语义向量空间模型与不良视频识别

国家自然科学基金

1+阅读 · 2008年12月31日

Attention in Attention: Modeling Context Correlation for Efficient Video Classification

Arxiv

0+阅读 · 2022年4月20日

Synthetic Target Domain Supervision for Open Retrieval QA

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Factual Error Correction for Abstractive Summaries Using Entity Retrieval

Arxiv

0+阅读 · 2022年4月18日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Value Retrieval with Arbitrary Queries for Form-like Documents

Arxiv

0+阅读 · 2022年4月15日

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Arxiv

0+阅读 · 2022年4月15日

Semantic Models for the First-stage Retrieval: A Comprehensive Review

Arxiv

20+阅读 · 2021年9月17日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

VIP会员

相关主题

多模态Transformer

计算机视觉

相关VIP内容

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

63+阅读 · 2021年10月14日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知会员服务

30+阅读 · 2020年10月9日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer

7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer

机器之心

0+阅读 · 2022年1月16日

聚焦视频文本检索：一文概览视频文本检索任务最新研究进展

聚焦视频文本检索：一文概览视频文本检索任务最新研究进展

PaperWeekly

1+阅读 · 2022年1月5日

IROS 2021 | PTT：把Transformer应用到3D点云目标跟踪任务

IROS 2021 | PTT：把Transformer应用到3D点云目标跟踪任务

CVer

0+阅读 · 2021年12月30日

豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021！一层8个token比1024个还好用

豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021！一层8个token比1024个还好用

极市平台

0+阅读 · 2021年12月12日

GNN + Transformer = GraphFormers

GNN + Transformer = GraphFormers

图与推荐

6+阅读 · 2021年11月24日

【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器

【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器

中国图象图形学学会CSIG

2+阅读 · 2021年10月20日

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

机器之心

1+阅读 · 2021年3月16日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

相关基金

非受控场景下融合结构与纹理信息的人脸人耳多模态识别

国家自然科学基金

0+阅读 · 2014年12月31日

多模态融合的大规模网络视频名人标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于TP模型变换方法的视觉伺服控制技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

面向多模态信息有效利用的机器学习方法研究

国家自然科学基金

5+阅读 · 2012年12月31日

融合词袋模型与空间关联的高分辨率遥感图像分类方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向视觉残障者的图像的力/触觉表达与再现方法研究

国家自然科学基金

0+阅读 · 2010年12月31日

基于视频语义理解的艺术风格化研究

国家自然科学基金

1+阅读 · 2009年12月31日

文本语义模型和子空间聚类研究

国家自然科学基金

1+阅读 · 2009年12月31日

视频语义向量空间模型与不良视频识别

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Attention in Attention: Modeling Context Correlation for Efficient Video Classification

Arxiv

0+阅读 · 2022年4月20日

Synthetic Target Domain Supervision for Open Retrieval QA

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Factual Error Correction for Abstractive Summaries Using Entity Retrieval

Arxiv

0+阅读 · 2022年4月18日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Value Retrieval with Arbitrary Queries for Form-like Documents

Arxiv

0+阅读 · 2022年4月15日

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Arxiv

0+阅读 · 2022年4月15日

Semantic Models for the First-stage Retrieval: A Comprehensive Review

Arxiv

20+阅读 · 2021年9月17日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

微信扫码咨询专知VIP会员