人类通过同时处理和融合来自视觉和音频等多种模态的高维输入来感知世界。与之形成鲜明对比的是,机器感知模型通常是特定于模态的,并针对单模态基准进行了优化,因此,从每个模态最终表示或预测的后期融合(“后期融合”)仍然是多模态视频分类的主导范式。相反,我们引入了一种新的基于transformer的架构,它使用“融合瓶颈”在多个层进行模态融合。与传统的成对自注意力相比,我们的模型迫使不同模态之间的信息通过少量的瓶颈潜伏,要求模型整理和浓缩每个模态中最相关的信息,只分享必要的信息。我们发现这种策略在提高融合性能的同时,降低了计算成本。我们进行了彻底的消融研究,并在多个视听分类基准上取得了最先进的结果,包括Audioset、Epic-Kitchens和VGGSound。所有代码和模型将被发布。
https://www.zhuanzhi.ai/paper/dd15123bca04f060baef40fb7620ea27