我们假设,由于多模态深度神经网络学习的贪婪性质,这些模型往往只依赖于一种模态,而不拟合其他模态。根据我们的经验观察,这种行为是反直觉的,并且损害了模型的泛化。为了估计模型对每种模态的依赖性,我们计算当模型除了另一种模态外还可以访问它时,对精度的增益。我们把这个增益称为条件利用率。在实验中,我们始终观察到不同模态之间的条件利用率不平衡,跨多个任务和架构。由于在训练过程中不能有效地计算条件利用率,我们引入了一个基于模型从每个模态学习的速度的代理,我们称之为条件学习速度。我们提出了一种算法来平衡训练过程中模态之间的条件学习速度,并证明它确实解决了贪婪学习的问题该算法提高了模型在三个数据集上的泛化能力:Colored MNIST、ModelNet40和NVIDIA Dynamic Hand Gesture。
https://www.zhuanzhi.ai/paper/a175b09bb7bfe5bc36d68b6fdf98fe86