作者 | 张伟
编辑 | 丛末
本文对WWW2020 论文《Metric Learning with Equidistant and Equidistributed Triplet-based Loss for Product Image Search》(用于图像检索的等距离等分布三元组损失函数)进行解读,作者来自蚂蚁金服。
图像检索由于类内差异大、类间相似性高,非常具有挑战性。深度度量学习在该任务上取得了一定的效果。然而,最为经典的深度度量学习损失函数——三元组损失,存在一定的问题。
首先,三元组损失约束了匹配对和不匹配对间的距离差异至少为一个固定间隔值,由于没有直接约束匹配对或者不匹配对的距离,使得局部范围内三元组满足间隔约束时不能保证全局范围内也满足。其次,改进的三元组损失进一步约束所有匹配对距离小于某个固定值以及所有不匹配对的距离大于某个固定值,这种固定值约束没有考虑到图像不同类别的独特性,容易造成特征空间扭曲。因此,需要通过相对距离约束去自适应地调整匹配对的距离和不匹配对的距离。
为了在全局范围内进一步拉近匹配对的距离和推远不匹配对的距离,在三元组损失的间隔约束基础上,我们针对匹配对和不匹配对分别进行了相对距离约束。
当两个样本足够近(重合到一点)时,到任意一个其他样本的距离应该相等。反之,如果有多个样本到某两个样本的距离相等时,那么这两个样本应该足够近。基于这个直观的几何现象,我们提出了等距离约束。通过约束三元组中的两组不匹配对的距离相等,使得三元组中的匹配对足够近。满足等距离约束时,存在一种朴素的最优解,即所有样本都足够近。为了避免这种情况,等距离约束依赖间隔约束,间隔约束可以拉开不匹配对和匹配对间的距离。这两个约束的作用使匹配对足够近(理想情况下重合到一点),并且不匹配对和匹配对的距离间存在间隔值,因此能够在全局范围内通过距离差异区分开匹配对和不匹配对。
一种等距离约束的优化情形如图1所示,三元组{}为了满足等距离约束,匹配对和朝着红色箭头方向移动,三元组{}为了满足等距离约束,匹配对和朝着绿色箭头方向移动,最终匹配对和朝着橘色箭头方向移动变得更近。
由于三元组损失没有对样本的分布进行约束,可能导致所有样本的特征分布到某个特征子空间,使得不匹配对的距离没有被足够拉远。为了拉开不匹配对的距离,我们期望不同类别在特征空间中尽可能均匀分布。在数学上,均匀分布等价于最大化最小距离,所以我们通过最大化类间的最小距离并且约束最小距离相等,来使得不同类别尽可能均匀分布到整个特征空间,从而增大不匹配对的距离。
最终,等距离约束、等分布约束和间隔约束构成了等距离等分布三元组损失函数(EET)。
数据集使用Deep Fashion In-ShopClothes Retrieval (DFISCR)和Stanford Online Products(SOP)。
文章还对不同约束下的结果进行了特征可视化和检索结果可视化。可以看出EET比MC(Margin Constraint)约束下学到的特征类内更集中,类间分布更均匀。
除商品检索外,EET在行人再识别、细粒度检索等多个检索数据集上的精度均得到了提升,对比结果如下。
本文提出的EET方法通过等距离约束进一步拉近匹配对的距离,等分布约束进一步推远不匹配对的距离。实验结果表明方法可以用在多个检索任务上。如何挑选更有信息量的三元组来优化模型参数以及学习更紧凑的特征表示是接下来需要思考的方向。
点击“阅读原文” ,直达直播现场