题目: Diverse Image Generation via Self-Conditioned GANs

摘要:

本文介绍了一个简单但有效的无监督方法,以产生现实和多样化的图像,并且训练了一个类条件GAN模型,而不使用手动注释的类标签。相反,模型的条件是标签自动聚类在鉴别器的特征空间。集群步骤自动发现不同的模式,并显式地要求生成器覆盖它们。在标准模式基准测试上的实验表明,该方法在寻址模式崩溃时优于其他几种竞争的方法。并且该方法在ImageNet和Places365这样的大规模数据集上也有很好的表现,与以前的方法相比,提高了图像多样性和标准质量指标。

成为VIP会员查看完整内容
0
24

相关内容

自回归文本生成模型通常侧重于局部的流畅性,在长文本生成过程中可能导致语义不一致。此外,自动生成具有相似语义的单词是具有挑战性的,而且手工编写的语言规则很难应用。我们考虑了一个文本规划方案,并提出了一个基于模型的模仿学习方法来缓解上述问题。具体来说,我们提出了一种新的引导网络来关注更长的生成过程,它可以帮助下一个单词的预测,并为生成器的优化提供中间奖励。大量的实验表明,该方法具有较好的性能。

成为VIP会员查看完整内容
0
43

在这篇论文中,我们提出了一个框架,能够生成与给定的一次性样例相同分布的人脸图像。我们利用一个预先训练的StyleGAN模型,它已经学会了一般的面部分布。针对这一一次性目标,我们提出了一种快速调整模型权值的迭代优化方案,以使输出的高阶分布适应目标的高阶分布。为了生成相同分布的图像,我们引入了一种风格混合技术,将低水平的统计信息从目标传输到模型随机生成的人脸。这样,我们就能够生成无限数量的面孔,这些面孔既继承了一般人脸的分布,也继承了一次性人脸的分布。新生成的人脸可以作为其他下游任务的增强训练数据。这样的设置很有吸引力,因为它需要在目标域中标记很少的标记,甚至只需要一个示例,而在现实世界中,人脸操作通常是由各种未知的和独特的分布导致的。结果表明,本文提出的单样本自适应方法是一种有效的人脸操作检测方法,并与其他多镜头自适应方法进行了定性和定量的比较。

成为VIP会员查看完整内容
0
24

主题: Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

摘要: GAN的隐式生成器对数密度logp_g与鉴别器的logit分数之和定义了一个能量函数,当生成器不完善但鉴别器是最佳时,该函数产生了真实的数据密度。这使得可以改进典型发电机(具有隐式密度p_g)。我们表明,根据潜在的先验对数密度和判别式输出得分之和所诱导的基于能量的模型,通过对潜在空间进行采样,可以从修改后的密度生成样本。我们称此过程为在潜在空间中运行Markov Chain Monte Carlo,然后应用生成器函数Discrim-inator驱动的潜在采样(DDLS)。我们证明,与在高维像素空间中工作的先前方法相比,DDLS是高效的,并且可以用于改进先前训练的多种类型的GAN。我们定性和定量地评估了合成和真实数据集上的DDLS。在CIFAR-10上,DDLS大大提高了现成的预训练SN-GAN的初始得分,从8.22到9.09,与类条件BigGAN模型相当。无需引入额外的参数或额外的训练,即可在无条件图像合成设置中获得最新的技术。

成为VIP会员查看完整内容
0
26

真实的颜色纹理生成是RGB-D表面重建的一个重要步骤,但由于重建几何形状的不准确性、相机姿态的不正确以及与视图相关的成像伪影,在实践中仍然具有挑战性。在这项工作中,我们提出了一种利用从弱监督视图中获得的条件对抗损失来生成颜色纹理的新方法。具体地说,我们提出了一种方法,通过学习一个目标函数来生成近似表面的真实感纹理,即使是在未对齐的图像中。我们的方法的关键思想是学习一个基于补丁的条件鉴别器,它可以引导纹理优化对不匹配的容忍度。我们的鉴别器采用一个合成的视图和一个真实的图像,并在一个广义的真实感定义下评估合成的图像是否真实。我们通过提供输入视图的“真实”示例对及其未对齐的版本来训练鉴别器,这样学习到的竞争损失将能够容忍扫描的错误。在定量或定性评价下对合成和真实数据进行的实验表明,我们的方法与现有方法相比具有优势。我们的代码是公开的视频演示。

成为VIP会员查看完整内容
0
10

近年来,自适应推理因其计算效率高而受到越来越多的关注。不同于现有的工作,主要利用架构适应网络冗余设计,在本文中,我们关注的空间冗余输入样本,并提出一种新颖的分辨率自适应网络(RANet)。我们的动机是,低分辨率表示对于包含规范对象的“简单”样本的分类是足够的,而高分辨率特征对于识别一些“困难”对象是有用的。在RANet中,输入图像首先被路由到一个轻量级的子网络,这个子网络能够有效地提取粗糙的特征图,并且具有高可信度预测的样本将会很早就从这个子网络中退出。只有那些先前预测不可靠的“硬”样本才会激活高分辨率路径。通过自适应地处理不同分辨率的特征,可以显著提高RANet的计算效率。在三个分类基准测试任务(CIFAR-10、CIFAR-100和ImageNet)上的实验证明了该模型在任意时间预测设置和预算批量分类设置中的有效性。

成为VIP会员查看完整内容
0
17

题目: DAWSON: A Domain Adaptive Few Shot Generation Framework

摘要:

为一个新领域从无到有地训练一个可生成对抗网络(GAN)需要大量的训练数据和几天的训练时间。为此,我们提出了一种基于元学习的GANs领域自适应少镜头生成框架DAWSON。在GANs上应用元学习的一个主要挑战是,由于GANs的无概率特性,通过在开发集上对生成器进行评估来获得生成器的梯度。为了解决这一挑战,我们提出了一个替代的GAN训练过程,它自然地结合了GANs的两步训练过程和元学习算法的两步训练过程。DAWSON是一个即插即用的框架,它支持一个广泛的元学习算法家族和各种具有体系结构变体的GANs。在DAWSON的基础上,我们还提出了音乐日场,这是第一个少镜头的音乐生成模型。我们的实验表明,音乐日场可以快速适应新的领域,只有几十首歌曲从目标领域。我们还表明,DAWSON可以学习生成新的数字只有四个样本在MNIST数据集。我们在PyTorch和Tensorflow中发布了DAWSON的源代码实现,生成了两种类型的音乐样本和快闪视频。

作者:

Weixin Liang,斯坦福大学,主要研究方向为自然语言处理,对话系统,计算机系统。

成为VIP会员查看完整内容
0
18

Most conditional generation tasks expect diverse outputs given a single conditional context. However, conditional generative adversarial networks (cGANs) often focus on the prior conditional information and ignore the input noise vectors, which contribute to the output variations. Recent attempts to resolve the mode collapse issue for cGANs are usually task-specific and computationally expensive. In this work, we propose a simple yet effective regularization term to address the mode collapse issue for cGANs. The proposed method explicitly maximizes the ratio of the distance between generated images with respect to the corresponding latent codes, thus encouraging the generators to explore more minor modes during training. This mode seeking regularization term is readily applicable to various conditional generation tasks without imposing training overhead or modifying the original network structures. We validate the proposed algorithm on three conditional image synthesis tasks including categorical generation, image-to-image translation, and text-to-image synthesis with different baseline models. Both qualitative and quantitative results demonstrate the effectiveness of the proposed regularization method for improving diversity without loss of quality.

0
3
下载
预览

Generating novel, yet realistic, images of persons is a challenging task due to the complex interplay between the different image factors, such as the foreground, background and pose information. In this work, we aim at generating such images based on a novel, two-stage reconstruction pipeline that learns a disentangled representation of the aforementioned image factors and generates novel person images at the same time. First, a multi-branched reconstruction network is proposed to disentangle and encode the three factors into embedding features, which are then combined to re-compose the input image itself. Second, three corresponding mapping functions are learned in an adversarial manner in order to map Gaussian noise to the learned embedding feature space, for each factor respectively. Using the proposed framework, we can manipulate the foreground, background and pose of the input image, and also sample new embedding features to generate such targeted manipulations, that provide more control over the generation process. Experiments on Market-1501 and Deepfashion datasets show that our model does not only generate realistic person images with new foregrounds, backgrounds and poses, but also manipulates the generated factors and interpolates the in-between states. Another set of experiments on Market-1501 shows that our model can also be beneficial for the person re-identification task.

0
6
下载
预览
小贴士
相关VIP内容
相关资讯
相关论文
Diverse Video Captioning Through Latent Variable Expansion with Conditional GAN
Huanhou Xiao,Jinglun Shi
3+阅读 · 2020年3月5日
Keyphrase Generation for Scientific Articles using GANs
Avinash Swaminathan,Raj Kuwar Gupta,Haimin Zhang,Debanjan Mahata,Rakesh Gosangi,Rajiv Ratn Shah
7+阅读 · 2019年9月24日
Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis
Qi Mao,Hsin-Ying Lee,Hung-Yu Tseng,Siwei Ma,Ming-Hsuan Yang
3+阅读 · 2019年3月18日
Red blood cell image generation for data augmentation using Conditional Generative Adversarial Networks
Oleksandr Bailo,DongShik Ham,Young Min Shin
4+阅读 · 2019年1月18日
Andrew Brock,Jeff Donahue,Karen Simonyan
4+阅读 · 2018年9月28日
Diverse Image-to-Image Translation via Disentangled Representations
Hsin-Ying Lee,Hung-Yu Tseng,Jia-Bin Huang,Maneesh Kumar Singh,Ming-Hsuan Yang
12+阅读 · 2018年8月2日
Liqian Ma,Qianru Sun,Stamatios Georgoulis,Luc Van Gool,Bernt Schiele,Mario Fritz
6+阅读 · 2018年1月21日
Navaneeth Bodla,Gang Hua,Rama Chellappa
8+阅读 · 2018年1月17日
Yunjey Choi,Minje Choi,Munyoung Kim,Jung-Woo Ha,Sunghun Kim,Jaegul Choo
5+阅读 · 2017年11月24日
Tero Karras,Timo Aila,Samuli Laine,Jaakko Lehtinen
3+阅读 · 2017年11月3日
Top