近年来,在音频-视觉下游任务中部署大规模预训练模型已取得显著成果。然而,这些主要在单模态非约束数据集上训练的模型,在多模态任务的特征提取上仍面临挑战,导致性能不佳。这一局限性源于在编码过程中引入无关的模态特定信息,从而对下游任务的性能产生不利影响。为了解决这一挑战,本文提出了一种新颖的双引导空间-通道-时间(DG-SCT)注意力机制。该机制利用音频和视觉模态作为软提示,动态调整预训练模型的参数,以适应当前多模态输入特征。具体来说,DG-SCT模块将可训练的跨模态交互层整合到预训练的音频-视觉编码器中,允许从当前模态中自适应提取关键信息,跨越空间、通道和时间维度,同时保持大规模预训练模型的固定参数。实验评估表明,我们提出的模型在多个下游任务(包括AVE、AVVP、AVS和AVQA)中均达到了最先进的结果。此外,我们的模型在具有挑战性的少样本和零样本场景中展现出有希望的性能。源代码和预训练模型可在 https://github.com/haoyi-duan/DG-SCT 获取。

成为VIP会员查看完整内容
27

相关内容

【ICML2023】POUF:面向提示的大型预训练模型无监督微调
专知会员服务
38+阅读 · 2023年5月18日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
38+阅读 · 2021年5月16日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ICML2023】POUF:面向提示的大型预训练模型无监督微调
专知会员服务
38+阅读 · 2023年5月18日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
38+阅读 · 2021年5月16日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员