灵活的优化方式。在训练期间,向 或 的梯度反向传播会根据权重 或 来调整幅度大小。那些优化状态不佳的相似度分数,会被分配更大的权重因子,并因此获得更大的更新梯度。如图 1(b) 所示,在 Circle Loss 中,A、B、C 三个状态对应的优化各有不同;
明确的收敛状态。在这个圆形的决策边界上,Circle Loss 更偏爱特定的收敛状态(图 1 (b) 中的 T)。这种明确的优化目标有利于提高特征鉴别力。
统一的相似性优化视角深度特征学习的优化目标是最大化 ,最小化 。在两种基本学习范式中,采用的损失函数通常大相径庭,比如大家熟知的 sofmax loss 和 triplet loss。这里不去在意相似性计算的具体方式——无论是样本对之间的相似性(相似性对标签情况下)还是样本与类别代理之间的相似性(类别标签情况下)。本文仅仅做这样一个假设定义:给定特征空间中的单个样本 x,假设与 x 相关的类内相似度分数有 K 个,与 x 相关的类间相似度分数有 L 个,分别记为 和 。为了实现最大化 与最小化 的优化目标,本文提出把所有的 和 两两配对,并通过在所有的相似性对上穷举、减小二者之差,来获得以下的统一损失函数:
暂先忽略等式 (1) 中的余量项 m 并对 和 进行加权,可得到新提出的 Circle Loss:再定义 的最优值为 的最优值为 ;。当一个相似性得分与最优值偏离较远,Circle Loss 将分配较大的权重,从而对它进行强烈的优化更新。为此,本文以自定步调(self-paced)的方式给出了如下定义:
4.2 类内余量和类间余量
不同于优化 () 的损失函数,在 Circle Loss 中, 和 是不对称的,本文为其各自定义了余量 和 ,这样可得到最终带余量的 Circle Loss:通过推导决策边界,本文进一步分析 和 。为简单起见,这里以二元分类的情况进行说明,其中决策边界是在 处得到。根据等式 (5) 和 (6) ,可得到决策边界:其中 。Circle Loss 有 5 个超参数,即 和 。通过将 。可将等式 (7) 约简为:基于等式 (8) 定义的决策边界,可对 Circle Loss 进行另外一番解读。其目标是优化 和 。参数 m 控制着决策边界的半径,并可被视为一个松弛因子。换句话说,Circle Loss 期望 且 。因此,超参数仅有 2 个,即扩展因子 γ 和松弛因子 m。4.3 优势Circle Loss 在 和 上的梯度分别为:图 2(c) 在二元分类的实验场景中可视化了不同 m 值设置下的梯度情况,对比图 2(a) 和 (b) 的triplet 损失和 AMSoftmax 损失的梯度,可知 Circle Loss 有这些优势:在 和 上能进行平衡的优化、梯度会逐渐减弱、收敛目标更加明确。
上图的可视化结果表明,triplet 损失和 AMSoftmax 损失都缺乏优化的灵活性。它们相对于 (左图)和 (右图)的梯度严格相等,而且在收敛方面出现了陡然的下降(相似度配对 B)。比如,在 A 处,类内相似度分数 已接近 1 ,但仍出现了较大的梯度。此外,决策边界平行于 ,这会导致收敛不明确。相对而言,新提出的 Circle Loss 可根据相似性得分与最优值的距离,动态地为相似度分数分配不同的梯度。对于 A( 和 都很大),Circle Loss 的重点是优化 ;对于 B,因为 显著下降,Circle Loss 会降低它的梯度,并因此会施加温和的优化。Circle Loss 的决策边界是圆形的,与 直线有着明确的切点,而这个切点将成为明确的收敛目标。这是因为,对于同样的损失值,该切点具有最小的类间-类间差距,是最容易维持的。
实验
本文在三个特征学习任务(人脸识别,行人再识别,细粒度图像检索)上,对 Circle Loss 进行了全面评估,结果如下:
可以看到,在上述三个任务中,Circle Loss 都表现出非常强的竞争力。在人脸上,采用分类模式,Circle Loss 超过了该领域先前的最好方法(如 AM-Softmax,ArcFace);在细粒度检索中,采用样本对学习方式,Circle Loss 又媲美了该领域先前的最高方法(如 Multi-Simi)。
值得一提的是,以往这两种范式下的损失函数形式通常大相径庭,而 Circle Loss 则使用完全一样的公式获得了上述表现,且每个参数都具有较好的可解读性。
下面这个关于收敛状态分析的实验,则进一步揭示了Circle Loss的优化特性。▲ 图3. Circle Loss收敛状态分析图 3 在 () 坐标中展现收敛前后的相似性状态,本文关注两种状态:
首先,是绿色散布点代表的收敛后状态;
其次,是蓝色累积点反映的通过决策面时瞬间的分布密度。
图 3(a) 中的 AMSoftmax 和(b)中的 Circle Loss 具有相切的决策面,可以看到,收敛后,Circle Loss 的收敛状态更紧密。而且,这些状态都是从一个相对狭小的通道通过决策面并最终收敛的。
当对 Circle Loss 使用 (c) 中更优的参数,这个现象更为明显。该观察从实验角度验证了图 1 中,对 Circle Loss 倾向一个特定收敛状态 T 的猜测和理论分析。
将这两项理解联合起来,便得到 Circle Loss。通过让每个相似性得分以不同的步调学习,Circle Loss 赋予深度特征学习的更灵活的优化途径,以及更明确的收敛目标;并且,它为两种基本学习范式(样本对和分类学习)提供了统一的解读以及统一的数学公式。
在人脸识别、行人再识别、细粒度的图像检索等多种深度特征学习任务上,Circle Loss 都取得了极具竞争力的性能。
欢迎加入旷视AI视频技术群或者添加farman7230入群 参考文献
E. Hoffer and N. Ailon. Deep metric learning using triplet network. In International Workshop on Similarity-Based Pattern Recognition, pages 84–92. Springer, 2015. W. Liu, Y. Wen, Z. Yu, and M. Yang. Large-margin softmax loss for convolutional neural networks. In ICML, 2016. F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. InProceedings of the IEEE conference on computer vision and pattern recognition, pages 815–823, 2015. Y. Sun, X. Wang, and X. Tang. Deep learning face repre- sentation from predicting 10,000 classes. In Proceedings of the IEEE conference on computer vision and pattern recog- nition, pages 1891–1898, 2014. F. Wang, J. Cheng, W. Liu, and H. Liu. Additive margin softmax for face verification. IEEE Signal Processing Let- ters, 25(7):926–930, 2018. H. Wang, Y. Wang, Z. Zhou, X. Ji, D. Gong, J. Zhou, Z. Li, and W. Liu. Cosface: Large margin cosine loss for deep face recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. Y. Wen, K. Zhang, Z. Li, and Y. Qiao. A discriminative feature learning approach for deep face recognition. In European conference on computer vision, pages 499–515. Springer, 2016.