最优传输理论和生成模型的几何观点

2020 年 7 月 18 日 PaperWeekly


©PaperWeekly 原创 · 作者|尹娟

学校|北京理工大学博士生

研究方向|随机过程、复杂网络



论文标题:A Geometric View of Optimal Transportation and Generative Model

论文链接:https://arxiv.org/abs/1710.05488


引言

最优传输理论具有数百年的历史,随着人工智能的发展浪潮,特别是深度学习的勃然兴起,最优传输理论再度焕发了新春!根据深度学习的流形分布定律:一类自然数据可以被视作高维背景空间中的低维数据流形上的一个概率分布,深度学习的主要任务包括两个:学习流形结构和表示概率分布。

深度神经网络本质上是表达欧氏空间之间的非线性映射,因此如何用映射表示概率分布成为研究重点。而最优传输理论恰是研究概率分布之间映射的学问。


核心思想

作者在这篇论文中展示了最优传输和凸几何之间的内在关系,特别是解决亚历山大问题的变分方法:构造一个具有规定面法线和体积的凸多面体。这导致了生成模型的几何解释,并导出了生成模型的新框架。

通过使用 GAN 模型的最优运输视图,我们展示了鉴别器计算了康塔洛维奇势能函数,生成器计算了运输图。对于一类较大的运输成本,康塔洛维奇势能函数可以通过一个近似公式给出最优运输图。

因此,仅对鉴别器进行优化就足够了。这表明该算法可以避免对抗性竞争,简化计算体系结构。初步实验结果表明,几何方法在低维空间多簇概率测度逼近方面优于传统的多簇概率测度逼近方法。


论文的贡献
本文的贡献可以分为以下四个部分:
  • 作者将凸几何与最优运输结合起来,然后使用最优运输分析生成模型。
  • 对最优运输图进行明确的几何解释,并将其应用于生成模型。
  • 如果代价函数 ,其中 是严格凸函数,则一旦得到最优鉴别器,则生成器器可以用显式表示。
  • 提出了一种新的生成模型框架,该模型采用最优运输图的几何构造。


最优传输理论和生成模型
4.1 GAN的最优传输观点
从最优传输的角度解释 GAN 模型。作者表明鉴别器主要寻找康塔洛维奇势能函数。下图给出了 WGAN 的最优传输视角:



假设 为 (abient) 图像空间, 上所有概率测度的 Wasserstein 空间,假设数据分布为 ,表示为经验分布:

其中 是投影器, 是边缘化算子。WGAN 生成一个参数映射: ,将潜在空间 映射到原始图像空间 。WGAN 中的康塔洛维势能函数估计被给出:

根据最优传输理论,康塔洛维奇问题具有对偶公式:


对偶关于 的梯度可以写成:

其中 是最优康塔洛维奇势能函数。

4.2 最优传输理论

定理给出了 Wasserstein distance(康塔洛维奇势能函数)与最优传输图(Brenier 势)之间的内在关系,说明一旦已知最优鉴别器,就自动得到最优生成器。鉴别器和生成器之间的游戏是不必要的。

定理:(Generator-Discriminator Equivalence) 给定 在紧域 ,存在代价函数 严格凸的最优传输计划。它是独一的并且具有形式 。提供 是绝对连续的和 是微不足道的。此外,存在一个康塔洛维奇势能函数 ,并且 可以表示为:

康塔洛维势能函数将传输映射放松成传输方案,用联合概率分布表示, 代表从起点 传到终点 的质量。传输方案的边际概率等于 ,即我们有:

这里投影映射 。由此,传输映射成为传输方案的特例,即传输映射诱导了传输方案:

康塔洛维奇问题是求代价最小的传输方案:

康塔洛维奇对偶问题为:
康塔洛维奇问题的原形式和对偶形式的等价性是基于最优传输方案的一个性质:循环单调性(Cyclic Monotonocity)。我们在最优传输方案的支集内任取点对:

那么我们有不等式:

这里是角标的任意排列。


▲ 循环单调性

4.3 几何生成模型

作者提出了一个新的生成框架,它将鉴别器和生成器结合在一起。该模型将这两个过程解耦。
  1. 编码/解码过程:这一步地图之间的样本图像空间 和潜在(特性)空间 利用深层神经网络编码映射来标示 ,解码地图
  2. 概率测度变换过程:将一个固定分布点 变换为任意给定的分布点 。映射记为: 这一步可以使用传统的深度神经网络或使用显式几何/数值方法。


▲ 几何生成模型的框架
上图给定一个经验分布 在原始环境空间 ,其支持 是一个子流形 。编码映射 将支撑流形 转换为潜在(或特征)空间 将经验分布向前推到在潜在空间上定义的

其中 。 


实验结果
5.1 与WGAN比较
在第一个实验中,我们使用 Wasserstein 生成对抗网络(WGANs)学习如图所示的混合高斯分布。



蓝色的点代表真实的数据分布,橙色的点代表生成的分布。左边为初始阶段,右边为迭代 1000 次后的阶段。似乎 WGAN 不能捕捉高斯混合分布。生成的数据往往位于两个高斯函数的中间。

原因之一是 GAN 中众所周知的模式崩溃问题,即如果数据分布有多个簇或分布在多个孤立的流形中,那么生成器很难很好地学习多个模式。 

下图显示了解决相同问题的几何方法。样本 是按照相同的高斯混合分布生成的,因此有两个簇。这对几何方法没有任何困难。在左边的框架,我们可以看到上面的包络有一个尖锐的山脊,梯度指向两个集群。因此,在目前的实验中,几何方法优于 WGAN 模型。



5.2 几何方法
作者使用纯几何方法生成均匀分布在一个表面上 与复杂的几何形状。



像空间 是三维欧几里得空间 。子流形上的真实数据样本分布 ,表示为一个表面,如图 , 所示。我们对表面的法线进行颜色编码,然后将颜色函数从 推进到潜在空间 ,因此用户可以直接可视化 中图像的对应关系,如图 所示。然后,作者构造了最优传输图 ,图像显示在 中。下图作者演示了生成的分布。



总结讨论

在此工作中,作者将凸几何与最优运输连接起来,然后使用最优运输分析生成模型。对于高维设置,由于维护了复杂的几何数据结构,因此严格的计算几何方法来计算最优传输图是很棘手的。

尽管如此,仍然存在用于处理高维情况的不同算法,例如社会主义方法,切片最优运输方法,分层最优运输方法。作者将沿着这个方向进行探索,并大规模实施所提出的模型。


参考文献


[1] Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein generative adversarial networks. [*In International Conference on Machine Learning*]{}, pages 214–223, 2017. 

[2] Xianfeng Gu, Feng Luo, Jian Sun, and Tianqi Wu. A discrete uniformization theorem for polyhedral surfaces. [*Journal of Differential Geometry (JDG)*]{}, 2017. 
[3] Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. V ariational principles for minkowski type problems, discrete optimal transport, and discrete monge-ampere equations. [*Asian Journal of Mathe- matics (AJM)*]{}, 20(2):383 C 398, 2016. 
[4] Swaminathan Gurumurthy, Ravi Kiran Sarvadevabhatla, and V enkatesh Babu Radhakrishnan. Deligan: Generative adversarial networks for diverse and limited data. In [*CVPR*]{}, 2017.


更多阅读





#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



登录查看更多
9

相关内容

KDD2020 | 真实世界超图的结构模式和生成模型
专知会员服务
28+阅读 · 2020年8月18日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
深度学习 | GAN模式崩溃的理论解释
数据派THU
10+阅读 · 2019年2月17日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
VAE、GAN、Info-GAN:全解深度学习三大生成模型
数据派THU
20+阅读 · 2017年9月23日
【原理】GAN的数学原理
GAN生成式对抗网络
8+阅读 · 2017年8月30日
Seeing What a GAN Cannot Generate
Arxiv
7+阅读 · 2019年10月24日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
6+阅读 · 2018年11月29日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
12+阅读 · 2018年1月12日
VIP会员
相关VIP内容
KDD2020 | 真实世界超图的结构模式和生成模型
专知会员服务
28+阅读 · 2020年8月18日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
相关资讯
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
深度学习 | GAN模式崩溃的理论解释
数据派THU
10+阅读 · 2019年2月17日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
VAE、GAN、Info-GAN:全解深度学习三大生成模型
数据派THU
20+阅读 · 2017年9月23日
【原理】GAN的数学原理
GAN生成式对抗网络
8+阅读 · 2017年8月30日
相关论文
Seeing What a GAN Cannot Generate
Arxiv
7+阅读 · 2019年10月24日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
6+阅读 · 2018年11月29日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
12+阅读 · 2018年1月12日
Top
微信扫码咨询专知VIP会员