一文详解基于流的深度生成模型

2022 年 7 月 7 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 鬼谷子

引言

到目前为止，两种生成模型和并不能准确地从真实数据中学习出概率分布。以隐变量的生成模型为例，在计算积分时，需要遍历所有的隐变量的取值这是非常困难，且不切实际的。基于的生成模型在正则化流（正则化流是估计概率分布非常有力的工具）帮助下可以更好的解决这个问题。一个的概率分布好的估计可以完成很多任务，比如说数据生成，预测未来事件概率估计，数据样本增强等。

生成模型的种类

当前生成模型的种类可以主要分为三种，分别是基于的生成模型，基于的生成模型和基于的生成模型：

生成对抗网络（GAN）： GAN 是由两个神经网络组成，分别是生成器和判别器。生成器的目的是从噪声中学习生成真实的数据样本，而判别器的目的是区分出真实的样本和生成的样本。在训练的过程中，两个网络在玩一个的博弈游戏中相互促进相互提高。

变分自动编码器（VAE）： GAN 是也是由两个神经网络组成，分别是编码器和解码器。编码器是将数据样本编码成隐向量，解码器将隐向量映射回样本数据。VAE 是在最大化变分下界中，粗略地优化数据的对数似然估计。

基于的生成模型： 一个基于的生成模型是由一系列的可逆变换器组成。它可以使得模型能够更加精确的学习到数据分布，它的损失函数是一个负对数似然函数。

预备知识

在了解基于的生成模型之前，需要知道三个关键的数学概念，分别是雅可比矩阵，行列式和变量替换定理。

3.1 雅可比矩阵和行列式

给定一个映射函数，将维输入向量映射为维的输出向量。雅可比矩阵是函数关于输入向量所有分量的一阶偏导数：

而行列式是用于计算一个方阵的，结果为一个实值标量。行列式的绝对值可以被认为是“矩阵的乘法扩展或收缩了多少空间”的度量。一个方阵的行列式如下所示：

其中求和下的下标是集合的所有置换，共有项。表示的是置换的符号。方阵行列式取值为时，则不可逆，反之亦然。行列式乘积公式为：

3.2 变量替换定理

给定一个单变量随机变量，已知它的概率分布为，如果想要用一个映射函数构造一个新的随机变量，即，其中是可逆的，即，则新随机变量的概率分布推导如下所示：

根据定义可知，积分是无穷多个宽度无穷小的矩形之和。该位置处矩形的高度是密度函数的值。当进行变量替换时，由得到和。表示在两个不同的变量坐标中定义矩形面积之间的比例。多变量的版本如下所示：

其中为雅可比矩阵的行列式。

标准化流

对概率分布进行良好的密度估计在许多机器学习问题中有直接的应用，但这是非常困难的。例如，由于我们需要在深度学习模型中运行反向传播，因此嵌入变量的概率分布（即后验）预计足够简单，可以轻松有效地计算导数。这就是为什么在隐变量生成模型中经常使用高斯分布的原因，尽管大多数真实世界的分布比高斯分布复杂得多。标准化流模型则可以用于更好、更强大的分布近似。标准化流通过应用一系列可逆变换函数将简单分布转换为复杂分布。通过一系列变换，根据变量替换定理反复替换新变量，最终得到最终目标变量的概率分布。

如上图的图示，对应则有以下公式：

根据以上公式可以推知概率分布表示为：

以上公式推导中用到了反函数定理，即如果且，进而则有：

雅可比矩阵的反函数定理为：一个可逆矩阵逆的行列式为这个矩阵行列式的倒数，即，因为

。给定这样一系列概率密度函数，我们知道每对连续变量之间的关系。所以可以通过输出直到追溯到初始分布。

随机变量穿过的路径就是一条流，连续分布形成的全链被称为标准化流。根据方程的计算要求，变换函数应该满足两个特性，分别是函数可逆和雅可比矩阵行列式计算容易。

标准化流模型

通过标准化流求输入数据的精确对数似然变得更加容易，基于流的生成模型的训练损失函数为训练数据集上的负对数似然：

5.1 RealNVP

RealNVP 模型通过叠加可逆双射变换函数序列来实现标准化流。在每个双射中，输入维度分为两部分：

维度保持不变；
第维度到维度，进行仿射变换（“缩放和平移”），缩放和平移参数都是第一维度的函数。

其中和是缩放和平移函数，映射都为，操作符表示的按元素乘积。

对于标准化流的条件 1 为函数可逆在 RealNVP 模型中是非常容易实现的，具体函数如下所示：

对于标准化流条件 2 中雅可比行列式容易计算在 RealNVP 模型同样可以实现，其雅可比矩阵为下三角矩阵，具体矩阵如下所示：

因此，行列式只是对角线上的项的乘积。

到目前为止，仿射耦合层看起来非常适合构建标准化流。更好的是，由于计算不需要计算或的逆，并且计算雅比行列式不涉及计算或的雅可比矩阵，因此这些函数可以是任意复杂的，两者都可以用深层神经网络建模。在一个仿射耦合层中，某些维度（通道）保持不变。为了确保所有的输入都有机会被更改，模型颠倒了每一层中的顺序，以便不同的模块组件保持不变。

按照这种交替模式，在一个转换层中保持相同的单元集总是在下一个转换层中修改。批量标准化有助于使用非常深的耦合层堆栈来训练模型。此外，RealNVP 可以在多尺度体系结构中工作，为大型输入构建更高效的模型。多尺度体系结构将若干“采样”操作应用于普通仿射层，包括空间棋盘模式掩蔽、压缩操作和通道掩蔽。

NICE 模型是 RealNVP 的前作，NICE 中的变换是没有尺度项的仿射耦合层，称为加性耦合层：

5.2 Glow

模型扩展了以前的可逆生成模型和，并通过用可逆卷积替换通道排序上的反向置换操作来简化架构。中的一个流程中的一个步骤包含三个子步骤：

激活归一化： 它使用每个通道的比例和偏置参数执行仿射变换，类似于批量归一化，但适用于批量大小为。参数是可训练的，但已初始化，因此小批量数据在激活归一化之后具有均值为和标准差为。

可逆卷积： 在流的各层之间，通道的顺序是相反的，因此所有数据维度都有机会被更改。具有相同数量的输入和输出通道的卷积是任何通道排序排列的泛化。假设有一个输入张量维度为张量的可逆卷积，其权重矩阵为。

输出是一个的张量，记为。

为了应用变量替换定理，需要计算雅可比行列式

。中的每个元素是一个通道数的向量，每个元素乘以权重矩阵分别得到输出矩阵中对应的元素。每个元素的导数为，并且总计有共有个元素：

可逆卷积取决于逆矩阵。

由于权重矩阵比较小，所以矩阵行列式和求逆的计算量还是在可控范围内的。

仿射耦合层： 的仿射耦合层的结构设计与的仿射耦合层相同。

自回归流的模型

自回归约束是一种对序列数据建模的方法：每个输出只依赖于过去观察到的数据，而不依赖于未来的数据。换句话说，观察的概率是依赖于序列数据，这些条件概率的乘积为提供了观察完整序列的概率：

6.1 MADE

是一种专门设计的架构，可以有效地在自编码器中执行自回归属性。当使用自动编码器来预测条件概率时，不是向自动编码器提供不同观察窗口时间的输入，而是通过乘以二进制掩码矩阵来消除某些隐藏单元的贡献，以便每个输入维度仅从给定的先前维度重构进行一次性传播。

给定一个有个隐层的全连接神经网络，其权重矩阵为，和一个输出层的权重矩阵，输出的每个维度有，当没有掩码矩阵的时候，神经网络前向传播的过程为如下所示：

为了将层之间的一些连接归零，可以简单地将每个权重矩阵按元素乘以一个二进制掩码矩阵。每个隐藏节点都分配有一个随机的“连接整数”，介于和之间；

第层中第个单元的分配值表示为。通过逐元素比较两层中两个节点的值来确定二进制掩码矩阵，则有：

如下图的例子所示，当前层中的一个单元只能连接到前一层中具有相同或更小随机数的其它单元，并且这种类型的依赖关系很容易通过网络传播到输出层。一旦将随机数字分配给所有单元和层，输入维度的顺序就固定了，并且相对于它产生了条件概率。为了确保所有隐单元都通过一些路径连接到输入和输出层，采样等于或大于前一层中的最小连接整数：

6.2 WaveNet

由一堆因果卷积组成，这是一种旨在尊重排序的卷积操作：在某个时间戳的预测只能消耗过去观察到的数据，不依赖于未来。中的因果卷积只是将输出移动多个时间戳到未来，以便输出与最后一个输入元素对齐。卷积层的一大缺点是感受视野的大小非常有限。输出几乎不能依赖于数百或数千个时间步之前的输入，这可能是对长序列建模的关键要求。因此，采用扩张卷积，其中内核应用于输入的更大感受视野中均匀分布的样本子集。使用门控激活单元作为非线性层，因为它被发现在建模一维音频数据方面比工作得更好，在门控激活之后应用残差连接，具体公式如下所示：

其中和分别是第层的卷积滤波器和门权重矩阵，两者都是可学习的。

6.3 MAF

是一种标准化流，其中转换层构建为自回归神经网络。与后面介绍的非常相似。给定两个随机变量和，并且概率密度函数已知，旨在学习。

生成每个以过去的维度为条件。准确地说，条件概率是的仿射变换，其中尺度和移位项是的观察部分的函数。数据生成时，会产生出一个新的，公式如下所示：

给定时，密度估计为：

该框架的方法优点在于生成过程是顺序的，因此设计速度很慢。而密度估计只需要使用等网络架构。变换函数对逆很简单，雅可比行列式也很容易计算。

6.4 IAF

与类似，逆自回归流也将目标变量的条件概率建模为自回归模型，但采用反向流动，从而实现了非常有效的采样过程。

中的仿射变换为：

如果令：

则有：

如下图示所示，打算估计已知的给定的概率密度函数。逆流也是自回归仿射变换，与相同，但尺度和移位项是已知分布中观察变量的自回归函数。

单个元素的计算不相互依赖，因此它们很容易并行化。已知的密度估计效率不高，因为必须按顺序恢复的值，即为

，因此总计需要次估计。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

可逆

关注 0

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

专知会员服务

150+阅读 · 2022年8月29日

深度生成模型综述

专知会员服务

52+阅读 · 2022年1月2日

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

专知会员服务

22+阅读 · 2021年12月3日

【ICML2021】分布式对抗训练中的基本权衡

专知会员服务

17+阅读 · 2021年8月6日

无监督学习：深度生成模型，35页ppt

专知会员服务

42+阅读 · 2021年7月4日

【斯坦福经典书】熵与信息论，311页pdf

专知会员服务

119+阅读 · 2021年3月23日

深度生成模型综述(中文版)，43页pdf

专知会员服务

184+阅读 · 2020年11月23日

最新【深度生成模型】Deep Generative Models，104页ppt

专知会员服务

71+阅读 · 2020年10月24日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

197+阅读 · 2020年5月14日

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

122+阅读 · 2019年9月24日

深度生成模型综述

专知

1+阅读 · 2022年1月2日

再谈变分自编码器（VAE）：估计样本概率密度

PaperWeekly

3+阅读 · 2021年12月23日

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

深度学习循环神经网络详解

七月在线实验室

16+阅读 · 2018年5月28日

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

探幽深度生成模型的两种方法：VAE和GAN

AI前线

15+阅读 · 2018年3月10日

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

CNN 反向传播算法推导

统计学习与视觉计算组

30+阅读 · 2017年12月29日

干货 | 深度学习之CNN反向传播算法详解

机器学习算法与Python学习

17+阅读 · 2017年11月21日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于高维特征和稀疏子空间聚类的图像分割方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下多因变量回归模型的统计推断

国家自然科学基金

5+阅读 · 2013年12月31日

随机泛函微分方程的动力学性态

国家自然科学基金

0+阅读 · 2012年12月31日

非参数变换模型的统计推断

国家自然科学基金

0+阅读 · 2012年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

多尺度随机微分方程的平均原理

国家自然科学基金

0+阅读 · 2012年12月31日

退化k-Hessian方程解的正则性研究

国家自然科学基金

0+阅读 · 2011年12月31日

实代数几何方法及其在多项式优化中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

随机微分方程的逼近

国家自然科学基金

0+阅读 · 2009年12月31日

Evolutionary bagging for ensemble learning

Arxiv

0+阅读 · 2022年9月6日

Forbidden Knowledge and Specialized Training: A Versatile Solution for the Two Main Sources of Overfitting in Linear Regression

Arxiv

0+阅读 · 2022年9月3日

LPFS: Learnable Polarizing Feature Selection for Click-Through Rate Prediction

Arxiv

0+阅读 · 2022年9月3日

Gradient flow structure and convergence analysis of the ensemble Kalman inversion for nonlinear forward models

Arxiv

0+阅读 · 2022年9月2日

Two-layer neural networks with values in a Banach space

Arxiv

0+阅读 · 2022年9月2日

Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth

Arxiv

20+阅读 · 2021年5月10日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks

Arxiv

14+阅读 · 2019年8月8日

Deep Reinforcement Learning: An Overview

Arxiv

15+阅读 · 2018年6月23日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

VIP会员