人们通过多种感官流与世界互动(例如,我们看到物体,听到声音,读到文字,感觉纹理和味觉),结合信息,形成感官之间的联系。由于真实世界的数据由各种同时出现的信号组成,如视频帧和音频轨道、web图像及其字幕、教学视频和语音文本,因此在构建和设计多模态机器学习(ML)模型时,很自然地运用了类似的逻辑。
有效的多模态模型具有广泛的应用——如多语言图像检索、未来动作预测和视觉语言导航——其重要性有以下几个原因; 鲁棒性,即在一种或多种模态缺失或损坏时仍能执行的能力,以及模态之间的互补性,即一些信息可能只在一种模态(如音频流)中存在,而在另一种模态(如视频帧)中不存在。虽然多模态融合的主流模式(称为后期融合)包括使用单独的模型对每个模态进行编码,然后在最后一步简单地组合它们的输出表示,但如何有效和高效地组合来自不同模态的信息仍有待研究。
在NeurIPS 2021发表的“多模态融合的注意力瓶颈”中,我们介绍了一种新的基于transformer的视频多模态融合模型,称为多模态瓶颈transformer(MBT)。我们的模型通过两种方式限制潜在单元之间的跨模态注意流:(1)通过紧密的融合瓶颈,迫使模型收集和压缩每个模态中最相关的输入(只与其他模式共享必要的信息),以及(2)模型的后期层,允许早期层专门化来自单个模态的信息。我们证明,这种方法在视频分类任务上取得了最先进的结果,与普通的多模态transformer模型相比,FLOPs减少了50%。我们还发布了我们的代码作为一个工具,供研究人员在扩展多模态融合工作时使用。