【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

2021 年 1 月 18 日 专知

深度学习方法是最近计算机视觉快速发展的基础。然而，这些方法往往需要昂贵的标记数据。特定于任务的模型，如分类器，并不是为了最大限度地学习一般的内部表示。此外，这些模型不能模拟数据生成过程来合成新样本，也不能修改输入样本。无监督深度生成模型有可能避免这些问题。

然而，两个主要的生成模型家族，生成对抗网络(GAN)和变分自编码器(VAE)，都有各自的特点和问题。基于GAN的模型在架构上相对复杂，有一个识别器网络，但通常没有编码器来接受输入。此外，GAN训练通常是不稳定的，并且容易忽略训练分配的部分(“模式崩溃”或“模式下降”)。另一方面，VAEs往往高估分布的某些区域的方差，导致生成的图像模糊。

本论文介绍和评估模型和技术，以大大减少上述问题，并生成锐利的图像输出与一个简单的自动编码器架构。这是通过两个总体原则实现的。首先，一个合适的技术组合，从GAN模型被集成到最近引入类似于VAE的对抗生成器-编码器。第二，网络的递归性质在几个方面得到了利用。自动调制器代表了一类新的自动编码器，其特征是使用隐含表示来调制解码器层的统计信息。该网络可以获取多个图像作为输入，从中生成融合的合成样本，输出的一些尺度由一个输入驱动，另一个尺度由另一个驱动，允许瞬时“风格混合”和其他新的应用。

这项工作介绍和评估模型和技术，以大大减少上述问题，并生成锐利的图像输出与一个简单的自动编码器架构。这是通过两个总体原则实现的。首先，一个合适的技术组合，从GAN模型被集成到最近引入的类似于VAE的对抗生成器-编码器。第二，网络的递归性质在几个方面得到了利用。自动调制器代表了一类新的自动编码器，其特征是使用隐含表示来调制解码器层的统计信息。该网络可以获取多个图像作为输入，从中生成融合的合成样本，输出的一些尺度由一个输入驱动，另一个尺度由另一个驱动，允许瞬时“风格混合”和其他新的应用。

这项工作介绍和评估模型和技术，以大大减少上述问题，并生成锐利的图像输出与一个简单的自动编码器架构。这是通过两个总体原则实现的。首先，一个合适的技术组合，从GAN模型被集成到最近引入的类似于VAE的对抗生成器-编码器。第二，网络的递归性质在几个方面得到了利用。自动调制器代表了一类新的自动编码器，其特征是使用隐含表示来调制解码器层的统计信息。该网络可以获取多个图像作为输入，从中生成融合的合成样本，输出的一些尺度由一个输入驱动，其他尺度由另一个驱动，允许瞬时“风格混合”和其他新的应用。

最后，使用高斯过程框架，图像编码器-解码器设置从单个图像扩展到图像序列，包括视频和摄像机运行。为此，辅助图像元数据在生成模型的潜在空间中以非参数先验的形式被利用。这允许平滑和自由插值图像序列。在此过程中，高斯过程和计算机视觉方法之间提供了一个优雅的连接，这意味着将两者结合起来具有深远的意义。

https://aaltodoc.aalto.fi/handle/123456789/101686