论文题目:Balanced Audio-visual Learning via On-the-fly Gradient Modulation
作者:彭小康*,卫雅珂*,邓安东,王栋,胡迪
通讯作者:胡迪
论文概述:视听学习通过整合不同的感官,有助于全面了解世界。因此,多输入模态有望提高模型性能,但我们实际上发现即使多模态模型优于其单模态模型,它们也没有得到充分利用。具体来说,在本文中,我们指出现有的视听判别模型(其中为所有模态设计了统一的目标)可能仍然存在欠优化的单模态表示,这是由某些场景中的另一种主导模态引起的。为了缓解这种优化不平衡,我们提出了动态梯度调制,通过监控它们对学习目标的贡献的差异来自适应地控制每种模态的优化。
此外,引入了动态变化的额外高斯噪声,以避免梯度调制引起的泛化下降。因此,我们在不同的视听任务上实现了对普通融合方法的相当大的改进,这种简单的策略也可以提升现有的多模态方法,这说明了它的有效性和多功能性。