对比损失被越来越多地用于学习来自多种模态的表示。在极限情况下,对比损失的性质鼓励模态在潜空间中精确匹配。然而,模态对齐如何影响下游任务性能仍然是一个开放问题。本文基于信息论论点,首先证明了精确的模态对齐通常对于下游预测任务是次优的。本文认为,更好性能的关键在于有意义的潜在模态结构,而不是完美的模态对齐。本文提出了三种通用的方法来构建潜在模态结构。设计了1)用于模态内正则化的深度特征分离损失;2)模态间正则化的Brownian损失;以及3)模态内和模态间正则化的几何一致性损失。在两种流行的多模态表示学习框架上进行了广泛的实验:基于CLIP的双塔模型和基于ALBEF的融合模型。在各种任务上测试了该模型,包括零样本/少样本图像分类、图像-文本检索、视觉问答、视觉推理和视觉蕴含。该方法比现有方法取得了一致的改进,证明了所提出方法在潜模态结构正则化上的有效性和泛化性。
https://www.zhuanzhi.ai/paper/edc57a45bc36f5ffe2fe15b450d50c94