人们通过多种感官流与世界互动(例如,我们看到物体,听到声音,读到文字,感觉纹理和味觉),结合信息,形成感官之间的联系。由于真实世界的数据由各种同时出现的信号组成,如视频帧和音频轨道、web图像及其字幕、教学视频和语音文本,因此在构建和设计多模态机器学习(ML)模型时,很自然地运用了类似的逻辑。

有效的多模态模型具有广泛的应用——如多语言图像检索、未来动作预测和视觉语言导航——其重要性有以下几个原因; 鲁棒性,即在一种或多种模态缺失或损坏时仍能执行的能力,以及模态之间的互补性,即一些信息可能只在一种模态(如音频流)中存在,而在另一种模态(如视频帧)中不存在。虽然多模态融合的主流模式(称为后期融合)包括使用单独的模型对每个模态进行编码,然后在最后一步简单地组合它们的输出表示,但如何有效和高效地组合来自不同模态的信息仍有待研究。

在NeurIPS 2021发表的“多模态融合的注意力瓶颈”中,我们介绍了一种新的基于transformer的视频多模态融合模型,称为多模态瓶颈transformer(MBT)。我们的模型通过两种方式限制潜在单元之间的跨模态注意流:(1)通过紧密的融合瓶颈,迫使模型收集和压缩每个模态中最相关的输入(只与其他模式共享必要的信息),以及(2)模型的后期层,允许早期层专门化来自单个模态的信息。我们证明,这种方法在视频分类任务上取得了最先进的结果,与普通的多模态transformer模型相比,FLOPs减少了50%。我们还发布了我们的代码作为一个工具,供研究人员在扩展多模态融合工作时使用。

成为VIP会员查看完整内容
56

相关内容

专知会员服务
59+阅读 · 2021年10月14日
专知会员服务
62+阅读 · 2021年4月11日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
101+阅读 · 2020年7月22日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
6+阅读 · 2022年3月29日
AAAI2022 预训练中的多模态信息融合与表征探究
RUC AI Box
3+阅读 · 2022年3月15日
Allen AI提出MERLOT,视频理解领域新SOTA!
夕小瑶的卖萌屋
3+阅读 · 2022年2月8日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
21+阅读 · 2019年8月30日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
3+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
30+阅读 · 2021年6月30日
Arxiv
102+阅读 · 2021年6月8日
VIP会员
相关资讯
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
6+阅读 · 2022年3月29日
AAAI2022 预训练中的多模态信息融合与表征探究
RUC AI Box
3+阅读 · 2022年3月15日
Allen AI提出MERLOT,视频理解领域新SOTA!
夕小瑶的卖萌屋
3+阅读 · 2022年2月8日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
21+阅读 · 2019年8月30日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员