深度度量学习(Deep Metric Learning, DML)提出学习度量空间,将语义相似性编码为嵌入空间距离。这些空间应该可以转移到训练期间看到的类别之外。通常,DML方法使用任务网络来解决在二元类分配上定义的对比排序任务。然而,这种方法忽略了实际类之间的高级语义关系。这导致学习后的嵌入空间编码不完整的语义上下文,并歪曲类之间的语义关系,影响了学习后的度量空间的泛化性。为了解决这一问题,我们提出了一种视觉相似度学习的语言指导目标。利用专家类名和伪类名的语言嵌入,我们根据有意义的语言语义对视觉表示空间进行上下文化和重新对齐,以获得更好的语义一致性。大量的实验和消融为我们提出的方法提供了强大的动力,并显示语言指导为DML提供了显著的、模型无关的改进,在所有基准上实现了具有竞争力的和最先进的结果。代码可在
https://github.com/ExplainableML/LanguageGuidance_for_DML获得。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“LGDM” 就可以获取《【CVPR2022】语言引导与基于视觉的深度度量学习的集成》专知下载链接
请扫码加入专知人工智能群(长按二维码),或者加专知小助手微信(zhuanzhi02),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG、论文等)交流~