近年来,深度学习彻底改变了机器学习和计算机视觉。许多经典的计算机视觉任务(例如目标检测和语义分割),传统上非常具有挑战性,现在可以使用监督深度学习技术来解决。虽然监督学习是一个强大的工具,当标签数据是可用的,并考虑的任务有明确的输出,这些条件并不总是满足。在这种情况下,生成建模给出了一个很有前途的方法。与纯粹的判别型模型相比,生成型模型可以处理不确定性,甚至在没有标签训练数据的情况下也可以学习强大的模型。然而, 虽然目前的方法生成建模取得可喜的成果, 他们遭受两个方面,限制他们的表现力: (i) 为图像数据建模的一些最成功的方法不再使用优化算法来训练,而是使用其动力学尚未被很好理解的算法,(ii) 生成模型往往受到输出表示的内存需求的限制。我们在本文中解决了这两个问题:在第一部分中,我们介绍了一个理论,它使我们能够更好地理解生成式对抗网络(GANs)的训练动力学,这是生成式建模最有前途的方法之一。我们通过引入可解析理解的GAN训练的最小示例问题来解决这个问题。随后,我们逐渐增加了这些示例的复杂性。通过这样做,我们对GANs的训练动力学有了新的认识,并推出了新的正则化器,也适用于一般的GANs。新的正则化器使我们能够——第一次——以百万像素的分辨率训练GAN,而不必逐渐增加训练分布的分辨率。在本论文的第二部分,我们考虑生成模型的三维输出表示和三维重建技术。通过将隐式表示法引入深度学习,我们能够在不牺牲表现力的情况下将许多2D领域的技术扩展到3D领域。
https://publikationen.uni-tuebingen.de/xmlui/handle/10900/106074