在大规模多模态数据集上的自监督学习,允许在联合多模态表示空间中学习有语义的嵌入,而不依赖人工标注。这些联合嵌入实现了零样本的跨模态任务,如检索和分类。然而,这些方法往往难以在域外数据上很好地泛化,因为它们忽略了特定模态嵌入中存在的语义结构。在这种背景下,我们提出一个新颖的Semantic-Structure-Preserving一致性的方法来提高普遍性modality-specific关系保存在联合嵌入空间。为捕捉样本之间的特定模态语义关系,本文建议学习多个锚点,并表示样本与这些锚点之间的多方面关系。为了给每个样本分配多个锚点,提出了一种新的多指派Sinkhorn-Knopp算法。我们的实验表明,我们提出的方法学习语义上有意义的锚self-supervised的方式。在MSR-VTT和YouCook2数据集上的评估表明,所提出的基于多锚点分配的解决方案实现了最先进的性能,并可泛化到域内和域外数据集。代码:https://github。com/Swetha5/Multi_Sinkhorn_Knopp