视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
● 从视频数据中进行的多模态学习最近受到了越来越多的关注,因为它允许训练语义上有意义的嵌入,而无需人工标注,从而实现了零镜头检索和分类等任务。在这项工作中,我们提出了一种多模态、模态不可知的融合Transformer方法,它学习在多种模态之间交换信息,例如视频、音频和文本,并将它们集成到一个连接的多模态表示中,以获得一个聚合多模态时间信息的嵌入。我们建议在训练系统的同时对所有的东西进行组合损失,无论是单个模式还是成对的模式,明确地排除任何附加的东西,如位置或模式编码。在测试时,得到的模型可以处理和融合任意数量的输入模式。此外,变压器的隐式特性允许处理不同长度的输入。为了评估所提出的方法,我们在大规模的HowTo100M数据集上训练模型,并在四个具有挑战性的基准数据集上评估结果嵌入空间,获得了在零拍视频检索和零拍视频动作定位方面的最先进的结果。
● 论文链接:https://arxiv.org/abs/2112.04446
● 作者单位:法兰克福歌德大学、哥伦比亚大学、麻省理工学院、IBM、德州大学奥斯汀分校等

成为VIP会员查看完整内容
28

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
59+阅读 · 2021年10月14日
专知会员服务
29+阅读 · 2021年7月30日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
101+阅读 · 2020年7月22日
AAAI2022 预训练中的多模态信息融合与表征探究
RUC AI Box
3+阅读 · 2022年3月15日
GNN + Transformer = GraphFormers
图与推荐
6+阅读 · 2021年11月24日
【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器
中国图象图形学学会CSIG
1+阅读 · 2021年10月20日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
21+阅读 · 2019年8月30日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
3+阅读 · 2022年4月19日
Arxiv
30+阅读 · 2021年6月30日
VIP会员
相关VIP内容
专知会员服务
59+阅读 · 2021年10月14日
专知会员服务
29+阅读 · 2021年7月30日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
101+阅读 · 2020年7月22日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员