对比学习允许我们通过对比消极样本中的正对来灵活地定义强大的损失函数。最近,该原理也被用于学习视频和文本的跨模态嵌入,但没有充分发挥其潜力。特别是之前的损失没有考虑模态内的相似性,导致嵌入效率低下,因为相同的内容被映射到嵌入空间的多个点上。在CrossCLR中,我们提出了一个对比损失来解决这个问题。此外,我们根据输入嵌入定义了高度相关的样本集,并将其从负样本中排除,以避免假负样本性问题。我们表明,这些原则持续地提高了学习嵌入的质量。通过CrossCLR学习的联合嵌入扩展了Youcook2和LSMDC数据集上的视频文本检索和Youcook2数据集上的视频字幕的技术水平。我们还通过学习其他对模式的改进的关节嵌入来证明这个概念的通用性。
https://www.zhuanzhi.ai/paper/91484725dec5fe4f3db2e6bb2ca9a448