我们旨在对模态坍塌(modality collapse)这一近期观察到的经验现象进行基础性的理解。该现象指的是,在多模态融合任务中训练的模型倾向于依赖部分模态,而忽略其他模态。 我们发现,模态坍塌发生在以下情境中:某一模态中的噪声特征通过融合模块中的共享神经元,与另一模态中的预测性特征纠缠在一起,从而掩盖了前者模态中预测性特征的正向贡献,最终导致该模态在表示空间中“坍塌”。

我们进一步证明,跨模态知识蒸馏(crossmodal knowledge distillation)能够隐式地解耦这些纠缠表示:通过在学生模型编码器中释放秩瓶颈,从而对融合头输出进行去噪,而不会削弱任何一个模态的预测性特征。

基于上述发现,我们提出了一种通过显式的基向量重分配(basis reallocation)来防止模态坍塌的算法,同时具备处理模态缺失问题的能力。 我们在多个多模态基准任务上进行了大量实证实验,验证了上述理论结论。 项目主页:https://abhrac.github.io/mmcollapse/

成为VIP会员查看完整内容
5

相关内容

【WWW2025】基于不确定性的图结构学习
专知会员服务
16+阅读 · 2月20日
【NeurIPS2024】几何轨迹扩散模型
专知会员服务
24+阅读 · 2024年10月20日
【ICML2024】双曲几何潜在扩散模型用于图生成
专知会员服务
42+阅读 · 2024年5月8日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
29+阅读 · 2023年8月28日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
22+阅读 · 2021年7月31日
专知会员服务
43+阅读 · 2021年7月1日
专知会员服务
50+阅读 · 2021年6月2日
专知会员服务
110+阅读 · 2020年12月22日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
463+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【WWW2025】基于不确定性的图结构学习
专知会员服务
16+阅读 · 2月20日
【NeurIPS2024】几何轨迹扩散模型
专知会员服务
24+阅读 · 2024年10月20日
【ICML2024】双曲几何潜在扩散模型用于图生成
专知会员服务
42+阅读 · 2024年5月8日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
29+阅读 · 2023年8月28日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
22+阅读 · 2021年7月31日
专知会员服务
43+阅读 · 2021年7月1日
专知会员服务
50+阅读 · 2021年6月2日
专知会员服务
110+阅读 · 2020年12月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
463+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员