最优传输理论和生成模型的几何观点

会员服务 ·

最优传输理论和生成模型的几何观点

2020 年 7 月 18 日 PaperWeekly

©PaperWeekly 原创 · 作者｜尹娟

学校｜北京理工大学博士生

研究方向｜随机过程、复杂网络

论文标题：A Geometric View of Optimal Transportation and Generative Model

论文链接：https://arxiv.org/abs/1710.05488

引言

最优传输理论具有数百年的历史，随着人工智能的发展浪潮，特别是深度学习的勃然兴起，最优传输理论再度焕发了新春！根据深度学习的流形分布定律：一类自然数据可以被视作高维背景空间中的低维数据流形上的一个概率分布，深度学习的主要任务包括两个：学习流形结构和表示概率分布。

深度神经网络本质上是表达欧氏空间之间的非线性映射，因此如何用映射表示概率分布成为研究重点。而最优传输理论恰是研究概率分布之间映射的学问。

核心思想

作者在这篇论文中展示了最优传输和凸几何之间的内在关系，特别是解决亚历山大问题的变分方法：构造一个具有规定面法线和体积的凸多面体。这导致了生成模型的几何解释，并导出了生成模型的新框架。

通过使用 GAN 模型的最优运输视图，我们展示了鉴别器计算了康塔洛维奇势能函数，生成器计算了运输图。对于一类较大的运输成本，康塔洛维奇势能函数可以通过一个近似公式给出最优运输图。

因此，仅对鉴别器进行优化就足够了。这表明该算法可以避免对抗性竞争，简化计算体系结构。初步实验结果表明，几何方法在低维空间多簇概率测度逼近方面优于传统的多簇概率测度逼近方法。

论文的贡献

本文的贡献可以分为以下四个部分:

作者将凸几何与最优运输结合起来，然后使用最优运输分析生成模型。
对最优运输图进行明确的几何解释，并将其应用于生成模型。
如果代价函数，其中是严格凸函数，则一旦得到最优鉴别器，则生成器器可以用显式表示。
提出了一种新的生成模型框架，该模型采用最优运输图的几何构造。

最优传输理论和生成模型

4.1 GAN的最优传输观点

从最优传输的角度解释 GAN 模型。作者表明鉴别器主要寻找康塔洛维奇势能函数。下图给出了 WGAN 的最优传输视角：

假设为 (abient) 图像空间，为上所有概率测度的 Wasserstein 空间，假设数据分布为，表示为经验分布：

其中和是投影器，和是边缘化算子。WGAN 生成一个参数映射：，将潜在空间映射到原始图像空间，。WGAN 中的康塔洛维势能函数估计被给出：

根据最优传输理论，康塔洛维奇问题具有对偶公式：

对偶关于的梯度可以写成：

其中是最优康塔洛维奇势能函数。

4.2 最优传输理论

定理给出了 Wasserstein distance（康塔洛维奇势能函数）与最优传输图（Brenier 势）之间的内在关系，说明一旦已知最优鉴别器，就自动得到最优生成器。鉴别器和生成器之间的游戏是不必要的。

定理：(Generator-Discriminator Equivalence) 给定和在紧域，存在代价函数且严格凸的最优传输计划。它是独一的并且具有形式。提供是绝对连续的和是微不足道的。此外，存在一个康塔洛维奇势能函数，并且可以表示为：

康塔洛维势能函数将传输映射放松成传输方案，用联合概率分布表示，代表从起点传到终点的质量。传输方案的边际概率等于和，即我们有：

这里投影映射。由此，传输映射成为传输方案的特例，即传输映射诱导了传输方案：

康塔洛维奇问题是求代价最小的传输方案：

康塔洛维奇对偶问题为：

康塔洛维奇问题的原形式和对偶形式的等价性是基于最优传输方案的一个性质：循环单调性（Cyclic Monotonocity）。我们在最优传输方案的支集内任取点对：

那么我们有不等式：

这里是角标的任意排列。

▲ 循环单调性

4.3 几何生成模型

作者提出了一个新的生成框架，它将鉴别器和生成器结合在一起。该模型将这两个过程解耦。

编码/解码过程：这一步地图之间的样本图像空间和潜在（特性）空间利用深层神经网络编码映射来标示，解码地图。
概率测度变换过程：将一个固定分布点变换为任意给定的分布点。映射记为：这一步可以使用传统的深度神经网络或使用显式几何/数值方法。

▲ 几何生成模型的框架

上图给定一个经验分布在原始环境空间，其支持是一个子流形。编码映射将支撑流形转换为潜在（或特征）空间。将经验分布向前推到在潜在空间上定义的。

其中。

实验结果

5.1 与WGAN比较

在第一个实验中，我们使用 Wasserstein 生成对抗网络（WGANs）学习如图所示的混合高斯分布。

蓝色的点代表真实的数据分布，橙色的点代表生成的分布。左边为初始阶段，右边为迭代 1000 次后的阶段。似乎 WGAN 不能捕捉高斯混合分布。生成的数据往往位于两个高斯函数的中间。

原因之一是 GAN 中众所周知的模式崩溃问题，即如果数据分布有多个簇或分布在多个孤立的流形中，那么生成器很难很好地学习多个模式。

下图显示了解决相同问题的几何方法。样本是按照相同的高斯混合分布生成的，因此有两个簇。这对几何方法没有任何困难。在左边的框架，我们可以看到上面的包络有一个尖锐的山脊，梯度指向两个集群。因此，在目前的实验中，几何方法优于 WGAN 模型。

5.2 几何方法

作者使用纯几何方法生成均匀分布在一个表面上与复杂的几何形状。

像空间是三维欧几里得空间。子流形上的真实数据样本分布，表示为一个表面，如图 , 所示。我们对表面的法线进行颜色编码，然后将颜色函数从推进到潜在空间，因此用户可以直接可视化和中图像的对应关系，如图所示。然后，作者构造了最优传输图，图像显示在中。下图作者演示了生成的分布。

总结讨论

在此工作中，作者将凸几何与最优运输连接起来，然后使用最优运输分析生成模型。对于高维设置，由于维护了复杂的几何数据结构，因此严格的计算几何方法来计算最优传输图是很棘手的。

尽管如此，仍然存在用于处理高维情况的不同算法，例如社会主义方法，切片最优运输方法，分层最优运输方法。作者将沿着这个方向进行探索，并大规模实施所提出的模型。

参考文献

[1] Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein generative adversarial networks. [*In International Conference on Machine Learning*]{}, pages 214–223, 2017.

[2] Xianfeng Gu, Feng Luo, Jian Sun, and Tianqi Wu. A discrete uniformization theorem for polyhedral surfaces. [*Journal of Differential Geometry (JDG)*]{}, 2017.

[3] Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. V ariational principles for minkowski type problems, discrete optimal transport, and discrete monge-ampere equations. [*Asian Journal of Mathe- matics (AJM)*]{}, 20(2):383 C 398, 2016.

[4] Swaminathan Gurumurthy, Ravi Kiran Sarvadevabhatla, and V enkatesh Babu Radhakrishnan. Deligan: Generative adversarial networks for diverse and limited data. In [*CVPR*]{}, 2017.

更多阅读