从三角不等式到Margin Softmax

2021 年 10 月 7 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在《基于 GRU 和 am-softmax 的句子相似度模型》中我们介绍了 AM-Softmax，它是一种带 margin 的 softmax，通常用于用分类做检索的场景。当时通过图示的方式简单说了一下引入 margin 是因为“分类与排序的不等价性”，但没有比较定量地解释这种不等价性的来源。

在这篇文章里，我们来重提这个话题，从距离的三角不等式的角度来推导和理解 margin 的必要性。

三角不等式

平时，我们说的距离一般指比较直观的“欧氏距离”，但在数学上距离，距离又叫“度量”，它有公理化的定义，是指定义在某个集合上的二元函数，满足：

1. 非负性：；

2. 同一性：；

3. 对称性：；

4. 三角不等式：。

顾名思义，距离是用来度量之间的差异程度的。理论上来说，只要满足前两点要求，就可以用来度量差异了，比如概率里边常用的 KL 散度，就仅仅满足前两点。第 3、4 点的加入，本质上来说是为了使得这样定义出来的距离与我们常见的欧氏距离更加接近，比如对称性是“距离没有方向”的体现，而三角不等式是“两点之间直线最短”的体现，这些类似有利于我们通过欧氏距离的类比来思考更一般的距离。

从这个定义来看，深度学习其实比较少碰到符合上述 4 点要求的距离，比如通常的分类是直接用内积加 softmax，而内积只满足第三点；余弦距离也只满足前 3 点，不满足第 4 点。不过，某些函数我们可以微调一下定义，使得它成为一个距离，比如我们知道欧氏距离是满足三角不等式的，所以

必然也满足三角不等式。所以，余弦距离是不满足三角不等式的，但是改为就满足了。

分类与排序

像人脸识别或者句子相似度等场景，在预测阶段我们是拿特征去排序的，我们自然希望随便拿一个样本，就能够检索出所有同类样本，这就要求“类内差距小于类间差距”；但是，如果我们将其作为分类任务训练的话，则未必能达到这个目的，因为分类任务的目标是“最靠近所属类的中心”。具体例子可以参考下图：

▲ 一种可能的分类结果，其中红色点代表类别中心，其他点代表样本

在该图中，属于类输于类，从分类角度来看

，因此分类都是正确的，但是，所以用去检索的话，找到的是不同类的，而不是同类的。

我们可以通过三角不等式更加定量地描述这种不等关系：我们希望达到，根据三角不等式有

，所以一个充分的条件是

两端加上，并利用三角不等式

，我们得到上式的一个充分条件是

要注意的是，分类任务只要求对于来说有，而上式多出了，多出来的一项就是 margin 项。

注意到分别是样本到其所属类中心的距离，所以我们可以认为是“类平均直径”，它应该接近一个常数，我们可以将它作为超参数调整。如果要自适应调整的话，可以考虑先训练一段时间，然后估计“类平均直径”作为再训练，然后再重新估计并训练，等等。

AM-Softmax

通过上面的推导，我们知道为了保证分类模型的特征可以用于排序，那么每个样本不仅仅要最靠近类中心，而且是距离加上之后还要最靠近类中心，即如果属于类的话，那么就要求：

根据《将“softmax+交叉熵”推广到多标签分类问题》里边的思路：只要我们希望，就可以往里边加入来构造 loss。所以我们就可以构造如下的 loss：

这便是带加性 margin 的交叉熵，其中是缩放比例，相当于 softmax 的温度参数。

不过别忘了，上述推导都是基于满足三角不等式，而我们平常用的打分函数并不满足三角不等式。对于训练检索模型来说，我们通常用余弦距离来打分，前面说了余弦距离可以通过开根号来满足三角不等式，所以对应的要求变为（以为例）：

两边乘以

得到

显然右端是有上界的，所以适当调整，可以使得

成为一个充分条件，这时候对应的 margin 交叉熵是

这就是 AM-Softmax。

回顾与小结

本文从三角不等式的角度推导了用分类模型做排序任务时 margin 的必要性，假定所用的打分函数满足三角不等式的前提下，能比较自然地导出相关结果。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

三角不等式

关注 0

【CVPR 2022】C2AM损失：为长尾目标检测任务追求更好的决策边界，C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection

专知会员服务

7+阅读 · 2022年3月19日

[ICLR2022]PU learning（Positive and Unlabeled learning）任务的mixup方法

专知会员服务

19+阅读 · 2022年2月2日

【NeurIPS2021】由相似性迁移的弱样本细粒度分类

专知会员服务

21+阅读 · 2021年11月11日

【ICML2021】分布式对抗训练中的基本权衡

专知会员服务

17+阅读 · 2021年8月6日

【ICML】应用于齐次神经网络的隐式正则自适应优化器

专知会员服务

12+阅读 · 2021年7月27日

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

【ICML2020】基于贝叶斯元学习在关系图上进行小样本关系抽取

专知会员服务

38+阅读 · 2020年9月5日

【ICML 2020 】小样本学习即领域迁移

专知会员服务

78+阅读 · 2020年6月26日

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

专知会员服务

13+阅读 · 2020年3月27日

听说Attention与Softmax更配哦～

PaperWeekly

0+阅读 · 2022年4月9日

两概率分布交叉熵的最小值是多少？

PaperWeekly

0+阅读 · 2021年11月6日

Softmax 函数和它的误解

极市平台

0+阅读 · 2021年10月15日

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

一文理解Ranking Loss/Margin Loss/Triplet Loss

极市平台

16+阅读 · 2020年8月10日

度量学习中的pair-based loss

极市平台

65+阅读 · 2019年7月17日

再谈人脸识别损失函数综述

人工智能前沿讲习班

14+阅读 · 2019年5月7日

人脸识别损失函数综述（附开源实现）

极市平台

29+阅读 · 2019年3月12日

从最优化的角度看待 Softmax 损失函数

极市平台

31+阅读 · 2019年2月21日

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

统计学习与视觉计算组

44+阅读 · 2018年4月25日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

具有群作用CR流形上的Morse不等式

国家自然科学基金

0+阅读 · 2015年12月31日

基于Quantale理论的粗糙集代数与拓扑性质

国家自然科学基金

0+阅读 · 2013年12月31日

满足开集条件的自相似结构上的分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于表达残差稀疏性的遮挡人脸识别方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于灵长目动物视觉认知原理的旋翼无人机自主规划方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于成对曲线组合的柔顺机构形状与拓扑优化设计研究

国家自然科学基金

0+阅读 · 2012年12月31日

图在曲面上嵌入的分类

国家自然科学基金

0+阅读 · 2011年12月31日

多复变全纯函数空间及其空间上的复合算子

国家自然科学基金

0+阅读 · 2011年12月31日

基于多重分形频谱理论的木材缺陷断层扫描检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

Towards Robust Neural Networks via Orthogonal Diversity

Arxiv

0+阅读 · 2022年4月18日

3D Compositional Zero-shot Learning with DeCompositional Consensus

Arxiv

0+阅读 · 2022年4月15日

Flexible Marginal Models for Dependent Data

Arxiv

0+阅读 · 2022年4月14日

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

Decomposed Mutual Information Estimation for Contrastive Representation Learning

Arxiv

11+阅读 · 2021年6月25日

Recent Advances in Large Margin Learning

Arxiv

12+阅读 · 2021年3月25日

Directional Graph Networks

Arxiv

27+阅读 · 2020年12月10日

Deep Learning for Learning Graph Representations

Arxiv

35+阅读 · 2020年1月2日

dynnode2vec: Scalable Dynamic Network Embedding

Arxiv

14+阅读 · 2018年12月6日

Additive Margin Softmax for Face Verification

Arxiv

11+阅读 · 2018年1月18日

VIP会员