干货 | 整体or局部？阿里CVPR论文用全新几何角度构建GAN模型

2018 年 6 月 2 日 AI科技评论

本论文由阿里巴巴达摩院机器智能技术实验室华先胜团队与UCF齐国君教授领导的 UCF MAPLE 实验室合作完成，被 CVPR 2018 收录。

AI 科技评论按：本论文由阿里巴巴达摩院机器智能技术实验室华先胜团队与 UCF 齐国君教授领导的 UCF MAPLE 实验室合作完成，被 CVPR 2018 收录为 poster 论文。

从学术开发和企业活动上看，阿里巴巴达摩院机器智能技术实验室在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有不错的表现。实验室分别在 SQuAD 和 KITTI 比赛中获得第一名，近期在 AAAI 2018 上，达摩院机器智能技术实验室共有 4 篇论文被录用，在CVPR 2018上，也有多篇论文被录用，成绩斐然。

以下为论文介绍：

GAN 自诞生以来吸引了众多相关的研究，并在理论、算法和应用方面取得了很多重大的突破。我们试图从一个全新的几何角度，用局部的观点建立一种与之前经典 GAN 模型所采用的整体方法不同的理论和模型，并以此建立和半监督机器学习中 Laplace-Beltrami 算子的联系，使之不再局限于传统的图模型 (Graph) 方法，并在用少量标注样本训练深度学习模型上取得了优异的性能；同时，我们还展示了如果用 Localized GAN (LGAN) 对给定图像在局部坐标系下进行编辑修改，从而获得具有不同角度、姿态和风格的新图像；我们还将进一步揭示如何从流型切向量独立性的角度来解释和解决 GAN 的 mode collapse 问题。

该工作由 UCF 齐国君教授领导的 UCF MAPLE 实验室 (MAchine Perception and LEarning) 和阿里巴巴华先胜博士领导的城市大脑机器视觉研究组合作完成，并将发表在 CVPR 2018 上。

论文地址：https://arxiv.org/abs/1711.06020

GAN 和基于图模型的半监督机器学习的关系

GAN 除了用来生成数据，我们认为一个非常重要的作用是：我们第一次有了一个比较理想的工具，可以用来表示和描述数据流型 (manifold)。之前，如果我们想表示流型，一般是借助于一个图模型（Graph）。在图模型里，我们用节点表示数据点，用边表示数据直接的相似性。有了 Graph，我们可以定量计算数据点上函数的变化。比如，在分类问题中，我们感兴趣的函数是分类函数，输出的是数据点的标签。有了基于 Graph 的流型，我们就可以建立一个分类模型：它输出的分类标签在相似样本上具有最小的变化。这个就是一种平滑性的假设，是基于图的半监督方法的核心假设。

上图：基于图的流型表示和半监督分类。

尽管这种基于图的半监督方法取得了很大的成功，但是它的缺点也是很明显的。当数据点数量非常巨大的时候，构建这样一个 Graph 的代价会非常大。为了解决这个问题，Graph 为我们提供了一个很好的基础。通过训练得到的生成器 G(z)，其实就是一个非常好的流型模型。这里 z 就是流型上的参数坐标，通过不断变化 z，我们就可以在高维空间中划出一个流型结构。

有了这样一个流型和它的描述 G，我们可以在数据流型上研究各种几何结构。比如切向量空间、曲率，进而去定义在流型上，沿着各个切向量，函数会如何变化等等。好了，这里 GAN 就和半监督学习联系起来了。以前我们是用 Graph 这种离散的结果去研究分类函数的变化，并通过最小化这种变化去得到平滑性假设。

现在，有了流型直接的参数化描述 G(z)，我们就能直接去刻画一个函数（比如分类问题中的分类器）在流型上的变化，进而去建立一个基于这种参数化流型的半监督分类理论，而非去借助基于图的流型模型。

具体来说，半监督图流型中，我们常用到 Laplacian 矩阵来做训练；现在，有了参数化的流型后，我们就可以直接定义 Laplace-Beltrami 算子，从而实现半监督的训练。下面是基于这个方法在一些数据集上得到的结果。更多的结果可以参考我们的论文「Global versus Localized Generative Adversarial Networks「。

上表：在 SVHN, CIFAR-10 和 CIFAR-100 上的半监督学习效果。

用全局还是局部坐标来研究 GAN?

这里，有个比较精细的问题。通常的 GAN 模型，得到的是一个全局的参数话模型：我们只有一个 z 变量去参数化整个流型。事实上，在数学上，这种整体的参数化王是不存在的，比如我们无法用一个参数坐标去覆盖整个球面。这时我们往往要借助于通过若干个局部的坐标系去覆盖整个流型。

同时，使用局部坐标系的另一个更加实际的好处是，我们给定一个目标数据点 x 后，整体坐标系 G(z) 要求我们必须知道对应的一个参数坐标 z；而使用局部坐标系后，我们就直接可以在 x 附近去建立一个局部坐标系 G(x,z) 去研究流型周围的几何结构，而不用去解一个逆问题去去它对应的 z 了。这个极大地方便了我们处理流型上不同数据点。

上图：流型的局部参数化表示。

沿着这个思路，我们可以利用参数化的局部坐标和它表示的流型来研究一系列问题。

比较理论的研究可以专注于，有了这些局部参数表示，如何去定义出一整套黎曼流型的数学结构，比如局部的曲率，黎曼度量，和如果沿着流型去算测地线和两个数据点之间的测地距离。
从应用的角度，给定了一个图像 x，用局部表示 G(x,z) 可以对这个 x 在它的局部领域中做各种编辑操作或者控制图像的各种属性，从而可以帮助我们生成想要的图像；比如不同角度的人脸、人体姿态、物体，甚至不同风格、表现不同情感的图像等等。这在安防、内容生成、虚拟现实等领域都会有广泛的应用前景。

从几何角度研究 Mode collapse 问题

当然，从几何和流型参数化的角度还可以给出对 GAN 更深入的理解，比如对 mode collapse 问题。在 GAN 的相关研究中，mode collapse 是一个被广泛关注的问题。有很多相关的论文在从不同角度来研究和解决这个问题。

而基于 Localized GAN 所揭示的几何方法，我们可以从流型局部崩溃的角度来解释和避免 GAN 的 mode collapse。具体来说，给定了一个 z，当 z 发生变化的时候，对应的 G(z) 没有变化，那么在这个局部，GAN 就发生了 mode collapse，也就是不能产生不断连续变化的样本。这个现象从几何上来看，就是对应的流型在这个局部点处，沿着不同的切向量方向不再有变化。换言之，所有切向量不再彼此相互独立--某些切向量要么消失，要么相互之间变得线性相关，从而导致流型的维度在局部出现缺陷（dimension deficient）。

为了解决这个问题，最直接的是我们可以给流型的切向量加上一个正交约束 (Orthonormal constraint)，从而避免这种局部的维度缺陷。下图是在 CelebA 数据集上得到的结果。可以看到，通过对不同的切向量加上正交化的约束，我们可以在不同参数方向上成功地得到不同的变化。

上图：在给定输入图像的局部坐标系下对人脸的不同属性进行编辑。

值得注意的是，尽管我们是从局部 GAN 的角度推导和实现了对切向量的正交化约束，这个思路和方法同样适用于传统的整体 GAN 模型。我们只需要在训练整体 GAN 模型的同时，在每个训练数据样本或者一个 batch 的子集上也加上这个约束来求取相应的下降梯度就同样可以训练整体 GAN 模型；这个方向可以引申出未来的相关工作。

对了，我们招人了，了解一下？

BAT资深算法工程师独家研发课程

最贴近生活与工作的好玩实操项目

班级管理助学搭配专业的助教答疑

学以致用拿offer，学完即推荐就业

扫码或点击阅读原文了解一下！

┏(＾0＾)┛欢迎分享，明天见！

登录查看更多

相关内容

阿里巴巴达摩院机器智能技术实验室

关注 0

阿里巴巴达摩院机器智能技术实验室是阿里巴巴专注人工智能技术研发的核心团队，隶属于 2017 年成立的阿里巴巴达摩院。机器智能技术下属的决策智能实验室致力于开发和运用尖端运筹优化和机器学习技术构建智能决策系统，用于探索未知前沿，降低运营成本，提升业务运营效率。团队成员分布在西雅图、杭州和北京，来自 MIT、Gatech、UCLA、Columbia、Northwestern、清华、北大、上交、浙大等国内外知名高校，发表过几十篇国际顶级会议/期刊论文 (NIPS/ICML/KDD/SIGMOD/AAAI/IJCAI 等)，曾在人工智能多个领域获得过最佳论文奖。实验室依托于在表征技术、数据洞察、优化技术、运营决策等技术方向上的积累，不断创新，协同合作伙伴在新零售、云与计算资源、电商、线上文娱等行业，数据、安全、客服等领域构建了多个创新系统，在阿里经济体内外都有广泛的应用。

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

专知会员服务

23+阅读 · 2020年4月9日

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日