Nvidia「艺术家神器」GauGAN发布第二代！训练超1000万张图片，两个词就能生成风景画

会员服务 ·

Nvidia「艺术家神器」GauGAN发布第二代！训练超1000万张图片，两个词就能生成风景画

2021 年 11 月 28 日 新智元

新智元报道

编辑：LRS

【新智元导读】英伟达的艺术家神器GauGAN最近发布了第二代，生成风景画的能力进一步提升，原来还需要自己指定一些材料合成图像，现在只需要一句话即可生成你想要的风景画，甚至季节等常识他也懂！

最近，英伟达发布了实时绘画工具GauGAN的第二代，主要特性是支持输入文本来生成图像。

在新版本中，GauGAN2集成了segmentation mapping, inpainting和text-to-image生成技术，用户可以生成一些在现实生活中并不存在的风景。

GauGAN2的目标是创造一种混合文字和图像的一种摄像技术！

与专门用于文本到图像或图像到图像分割应用的最新模型相比，GauGAN2背后的神经网络模型能够产生了更加多样、质量更高的图像。

用户不必绘制想象场景中的每一个元素，只需要输入一个简短的短语就能够快速生成图像的关键特征和主题，例如输入雪山，就能够生成一个雪山的草图。然后以这个草图为起点，进行下一步的图像修改，例如把山变高，加几棵树，换一个天空等等，可以说是十分方便了！

GauGAN这个名字的灵感来自于印象派画家保罗·高更（Paul Gaugin），他死后作品才开始名声大噪。他是印象派的代表人物，除去绘画之外，在雕塑、陶艺、版画和写作上也有一定的成就。他对色彩的使用导致了综合主义的产生，加上分隔主义的影响，也为原始主义的产生铺平了道路。

从2019年开始，Nvidia就给GauGAN系统喂了超过100万张公共Flickr图片进行模型训练。

2019年3月，在加州圣何塞举行的GPU技术大会（GTC）上，Nvidia揭开了GauGAN的面纱，这是一种生成对抗性AI系统，可以让用户创建实际并不存在的逼真风景图像。GauGAN测试版在Playground平台上发布后的第一个月，就已经生成了50万张图片，包括电影、视频游戏等概念艺术领域均有应用。

Nvidia表示，GauGAN已经被一家医疗保健组织用于探索性治疗工具使用，动画建模师Colie Wertz也在使用GauGAN，他的作品包括《星球大战》、《变形金刚》和《复仇者联盟》等。

GauGAN的首次公开使用是在GANPaint Studio中，这是一个公开的人工智能工具，可让用户上传任何照片并编辑所描绘的建筑物，植物群和固定装置的外观。在其他地方，生成机器学习模型已被用于通过观看YouTube剪辑，从自然语言标题创建图像和故事板，以及使用包含人类语音的音频剪辑来动画和同步面部运动来生成逼真的视频。

与GauGAN的第一代一样，GauGAN2知道雪、树、水、花、灌木、山和山等物体之间的关系，例如降水类型随季节变化这种常识在图像生成中也能够保持。

GauGAN和GauGAN2同样还是基于对抗生成网络（GAN），模型中包含一个生成器和判别器。生成器用来接收输入样本（一个文本和一个图像）然后预测出这个文本描述是否和风景图像内容能对应上。

生成器的训练过程是通过试图欺骗判别器，使其无法分辨生成图片和现实场景的图片。虽然GAN在初期生成的质量很差，一眼假，但它的生成器会随着判别器的反馈而不断变强。

在第一代基础上，GauGAN2接收了超过1000万张图片的训练，已经能够很好地将自然语言转换为风景图像。

例如输入「海滩上的日落」就会产生一对应的风景图，在这基础上添加诸「落基山海滩上的日落」或将「日落」替换为「下午」或「雨天」等形容词也会立即生成修改后的图片。

使用GauGAN2，用户可以生成一个分割图（segmentation map），能够显示场景中物体位置。用户可以将生成的图像切换到绘图模式，用天空、树、岩石和河流等标签将场景绘制成粗糙的草图，并能够使用画笔将涂鸦嵌入图像中。

GauGAN2和OpenAI的DALL-E差不多，DALL-E也是根据文本提示来生成图像。这类系统本质上是视觉创意的创造器，在电影、软件、视频游戏、产品、时尚和室内设计方面有潜在的应用场景。

Nvidia声称，GauGAN的第一个版本已经被用来创造电影和视频游戏的概念艺术。并且与第一版相同，Nvidia计划在GitHub上开源GauGAN2 的代码，并在Playground上进行交互式演示，Playground是Nvidia AI和深入学习研究的网络中心。

但，像GauGAN2这样的生成模型的一个缺点是可能存在模型偏见。

在Dall-E的生成样例中，OpenAI使用了一个特殊的模型CLIP来提高图像质量，用到的方法是在DALL-E生成的每条样本中把顶层样本给覆盖掉，换成其他的提示图。

但是一项研究发现，CLIP错误分类的黑人个人照片的比例更高，并且它会认为从事诸如保姆、和家政工人等职业是和妇女相关的。

在相关新闻材料中，Nvidia并没有说明他们的研发团队如何审核GauGAN2中的社会偏见。

但Nvidia发言人在邮件中说过，该模型有超过1亿参数，并使用风景数据集中训练了一个月。这个专用的模型完全专注于风景景观，研究人员审计以确保在训练图像中没有人物的出现。目前来说，GauGAN2只是一个研究演示。

另一个GauGAN的应用是Nvidia Canvas，能够让创作者通过材料而不是颜色来绘画。这个程序能够实时现实绘画结果，而不需要等待完整的绘画。

用户首先用现实世界的材料，如草地或云彩，画出简单的形状和线条。人工智能模型然后立即填充屏幕显示停止的结果。四个快速的形状和一个惊人的山脉出现。再多几条线就会形成一片美丽的田野。

NVIDIA canvas也提供了多种材料可供使用。NVIDIA画布有九种风格，修改的外观和感觉的绘画和15种不同的材料，从天空和山脉，河流和石头。在不同的图层上绘制，使元素保持分离。从头开始，或启动和修改应用程序的预制场景之一，以获得更完美的灵感提示。

在池塘里画画，附近的元素如树木和岩石就会出现在水中的倒影。换一种材料，把雪变成草，整个形象就从一个冬天的仙境变成了一个热带的天堂。

该工具允许艺术家使用样式过滤器，改变生成的图像，以采用特定的画家的风格。不仅仅是把其他图片拼接起来，或者剪切和粘贴纹理，而是创造全新的图像，就像艺术家一样。

有了英伟达的GauGAN，人人都能成为艺术家了！

参考资料：

https://venturebeat.com/2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/

登录查看更多

相关内容

英伟达（NVIDIA）

关注 25

NVIDIA（全称NVIDIA Corporation，NASDAQ：NVDA，发音：IPA：/ɛnvɪdɪə/，台湾官方中文名为輝達），创立于1993年4月，是一家以设计显示芯片和芯片组为主的半导体公司。NVIDIA亦会设计游戏机核心，例如Xbox和PlayStation 3。NVIDIA最出名的产品线是为个人与游戏玩家所设计的GeForce系列，为专业工作站而设计的Quadro系列，以及为服务器和高效运算而设计的Tesla系列。 NVIDIA的总部设在美国加利福尼亚州的圣克拉拉。是一家无晶圆（Fabless）IC半导体设计公司。"NVIDIA"的读音与英文"video"相似，亦与西班牙文evidia（英文"envy"）相似。现任总裁为黄仁勋。

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

【ICML2021】对抗学习条件变分自编码器的端到端文本转语音

专知会员服务

10+阅读 · 2021年6月21日

【Nature子刊】ProteinGAN使用生成式对抗网络生成蛋白质变体，加速药物研发

专知会员服务

26+阅读 · 2021年4月6日