一文详解Wassertein距离

会员服务 ·

一文详解Wassertein距离

2021 年 2 月 19 日 PaperWeekly

©PaperWeekly 原创 · 作者｜孙裕道

学校｜北京邮电大学博士生

研究方向｜GAN图像生成、情绪对抗样本生成

引言

WGAN 的横空出世引出了一个更好度量两个概率分布差异的指标即 Wassertein 距离（或叫做推土机距离），它主要优势就在于该距离具有连续性的特质。TV 散度和 JS 散度的缺点在于这两个距离不具有连续性，这会导致在神经网络参数优化的过程中梯度会消失，KL 散度则是因为该距离不具有对称性即。

本文会从 Monge 问题开始详细介绍关于 Wassertein 距离的一些相关背景和证明，最后给出了一个实例有助于理解 Wassertein 距离这个概念。

Monge问题（最优传输映射）

一般情况下，假定和是完备、可分的度量空间，例如欧式空间的子集，通常是紧集。代表上所有概率测度构成的空间。

问题1（Monge 问题或最优传输问题） 给定两个概率测度，和一个代价函数 : ，求：

其中由映射诱导的推前测度定义为：

这里是任意可测集合，映射空间：

如下图示，Monge 问题其实是在找一个最优传输映射，映射将空间映射为空间，是空间中的区域，是在中原像。需要满足的条件是对于空间中区域的测度要与空间中区域的测度要相等。根据下图通俗易懂的理解是面积在中的占比与面积在中的相等。

Kantorovich问题（最优传输方案）

对于 Monge 问题，由于需要求解一个映射，实际上只能允许多对一或者一对一（映射的定义），Kantorovich将传输映射放松成传输方案，允许一对多，从而将原来问题进行简化。

假定有一个联合概率分布，其边际概率分布分别等于和，，，这里和是投影映射：。

问题2（Kantorovich 问题或最优传输方案问题）给定两个概率测度，和一个代价函数 : ，求解：

其中联合概率测度属于传输方案空间：

如果一个最优传输映射为，则最优传输方案有如下形式：

给定离散的和，可能不存在任何传输映射：

但传输方案总是存在的，例如。所以说 Kantorovich 问题是 Monge 问题的一个弱化和放松。如下图所示，图中左半部分是映射，映射的要求是空间中的元素有且只有一个空间中的元素与之对应。图中的有右半部分是方案，方案可以是多多的形式。

Wassertein距离

4.1 Wassertein距离定义

在深度学习中利用最优传输代价作为统计散度来反应两个概率密度之间的离散程度。主要用来表示两个概率分布的不相似程度，类似的统计散度有比较知名的 KL 散度，JS 散度，还有一种度量概率分布很好方式就是利用 Wassertein 距离。

如果将 Section 3 的 Kantorovich 问题的公式（2）里的代价函数换成欧式距离：

就得到了 2-Wassertein 距离：

类似的，对于任意正整数，k-Wasserstein 距离可以定义为：

其中，是范数，即，。

我们最熟知的推土机距离（Earth-Mover）为 1-Wassertein 距离：

将公式（5）写成期望的形式为：

其中表示边缘分布和的所有联合分布的集合。可以理解为将分布转换成分布所消耗的成本的方案。

我们熟知的 WGAN 的对抗目标损失其实是公式（6）的对偶形式，具体公式如下所示：

其中上确界在所有 1-Lipschitz 的上面。如果将替换为，则会有一个参数化的函数，进而可以求解问题：

其中，为神经网络的参数。

4.2 Wassertein距离连续性

Wassertein 距离衡量分布的一个最大的好处就在于它距离度量的连续性。

证明：

假定和是中的两个参数向量，其中联合的分布的集合为。

由公式 6 的 Wassertein 距离的定义可知：

如果在中是连续的，那么，则有，由于是紧的，其中任意两个元素的距离必须由某个常数一致有界，因此对于所有和，一致。根据有界收敛定理，则有：

最终则有：

连续性证明完毕。

4.3 Wassertein距离实例

如下图所示考虑怎样将下面左图中的（实线）方块区域搬到右图中的（虚线）方块区域中，并且综合所移动距离最短。我们可以把这里的移动距离（或者传输距离）堪称是位置之间的距离差。比如左边的方块 I 在位置 4，如果搬到右边的位置 11，那么距离就是 7。

对于上图的问题，我们的一个直观的感受就是有很多种的搬运方块的方案。搬运方案一如下图所示，我们可以把位置 1 的方块 A，放到位置 7 处，剩下两个方块 B 和 C 放到位置 8 中；位置 2 处的方块 D 和 E 放到位置 9 处；位置 3 的方块 F 放到位置 9 处，剩下的两个方块 H 和 G 放到位置 10 处；位置 4 的方块放到位置 11 处。搬运方案一总体的运输距离为：

搬运方案二如下图所示，我们可以把位置 1 的方块 A，放到位置 11 处，剩下两个方块 B 和 C 放到位置 10 中；位置 2 处的方块 D 和 E 放到位置 9 处；位置 3 的方块 H 放到位置 9 处，剩下的两个方块 F 和 G 放到位置 8 处；位置 4 的方块放到位置 7 处。搬运方案二总体的运输距离为：