人类通过同时处理和融合来自视觉和音频等多种模态的高维输入来感知世界。与之形成鲜明对比的是,机器感知模型通常是特定于模态的,并针对单模态基准进行了优化,因此,从每个模态最终表示或预测的后期融合(“后期融合”)仍然是多模态视频分类的主导范式。相反,我们引入了一种新的基于transformer的架构,它使用“融合瓶颈”在多个层进行模态融合。与传统的成对自注意力相比,我们的模型迫使不同模态之间的信息通过少量的瓶颈潜伏,要求模型整理和浓缩每个模态中最相关的信息,只分享必要的信息。我们发现这种策略在提高融合性能的同时,降低了计算成本。我们进行了彻底的消融研究,并在多个视听分类基准上取得了最先进的结果,包括Audioset、Epic-Kitchens和VGGSound。所有代码和模型将被发布。

https://www.zhuanzhi.ai/paper/dd15123bca04f060baef40fb7620ea27

成为VIP会员查看完整内容
63

相关内容

【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
22+阅读 · 2021年11月29日
专知会员服务
13+阅读 · 2021年5月29日
【AAAI2021】图卷积网络中的低频和高频信息作用
专知会员服务
59+阅读 · 2021年1月6日
【AAAI2021】记忆门控循环网络
专知会员服务
50+阅读 · 2020年12月28日
【AAAI2021】层次推理图神经网络
专知会员服务
70+阅读 · 2020年12月27日
【NeurIPS2020】针对弱监督目标检测的综合注意力自蒸馏
专知会员服务
32+阅读 · 2020年11月12日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
33+阅读 · 2020年9月27日
注意力图神经网络的小样本学习
专知会员服务
192+阅读 · 2020年7月16日
【NeurIPS2020 】数据扩充的图对比学习
专知
9+阅读 · 2020年11月9日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知
8+阅读 · 2020年8月26日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
31+阅读 · 2021年6月30日
Arxiv
28+阅读 · 2021年5月17日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关VIP内容
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
22+阅读 · 2021年11月29日
专知会员服务
13+阅读 · 2021年5月29日
【AAAI2021】图卷积网络中的低频和高频信息作用
专知会员服务
59+阅读 · 2021年1月6日
【AAAI2021】记忆门控循环网络
专知会员服务
50+阅读 · 2020年12月28日
【AAAI2021】层次推理图神经网络
专知会员服务
70+阅读 · 2020年12月27日
【NeurIPS2020】针对弱监督目标检测的综合注意力自蒸馏
专知会员服务
32+阅读 · 2020年11月12日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
33+阅读 · 2020年9月27日
注意力图神经网络的小样本学习
专知会员服务
192+阅读 · 2020年7月16日
相关论文
Arxiv
11+阅读 · 2021年10月26日
Arxiv
31+阅读 · 2021年6月30日
Arxiv
28+阅读 · 2021年5月17日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
微信扫码咨询专知VIP会员