英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」

2021 年 11 月 24 日 THU数据派


  
  
    
来源:量子位

  本文约2526字,建议阅读5分钟

本文介绍了 英伟达能实现实时文字p图的最新AI模型GauGAN2。


在“一句话生成照片”这件事上,英伟达又一次突破了大伙的想象力。

他们最新的AI模型 GauGAN2 ,不仅能根据字词生成逼真风景照,还能实时用 文字P图


输入一句“海浪击打岸边石”,立刻输出一张逼真照片:


单词 短语 ,这只AI全都能get!


那感觉,简直是要山得山,要水得水:


要是觉得哪部分你不喜欢,直接 打字 就能“P图”:


上面这些效果,都是英伟达这个叫做“GauGAN2”的模型做出来的,而它的“完整版”功能,还远不止这些。

从草图到文字,都能生成风景照


GauGAN2的绘制模式,一共分为三种

第一种,打字生成图片。

我们先试了一下单个词组,“ 阳光 (sunshine)”,生成如下图片:


加上限定词 in the forest 后,AI立刻就将场景换到了树林里,变成光洒在树林中的场景:


再多来点限定词也没问题。

像“ 冬日 树林中的阳光”,输入in winter后,眼前本来郁郁葱葱的树林立刻“全秃了”,换成了雪景下的一幕:


这效果,u1s1(有一说一)确实不错。

还能输出不同style的风景图,例如输入“大山(mountain)”一词,立刻要山有山,还能给你换不同风格:


当然,这些不同的风景照也都能继续生成新细节,在mountain后加上“beside a river”就能生成山水:


第二种,“打字P图”,直接用文字编辑部分图像。

只需要把想替换掉的部分圈出来,输入你想要的东西,就能立刻造出各种新颖的风景图:


嗯……英伟达给出的这个demo,思路也是非常清奇了,“浮在空中的城堡”:


第三种,用涂鸦生成风景照。

这是上一代GauGAN2(2019年英伟达推出的GauGAN)的看家本领。

例如,要是想实现下面这样的“一片天空两个太阳”,就完全可以在通过文本生成的图像上,自己手动再加一个。


这几种玩法 叠加 在一起,简直让网友们脑洞大开。

像外媒ZDNet就 恶搞 出来了一种神奇的玩法,在已有的风景上画个人头:


然后让GauGAN2根据已有的画面,再重新生成图画,就会得到如下“人头海岛”的神奇景观:


不过这可能也对个人画技有所要求,在我们的灵魂画风下,效果看上去就有些……不太聪明的亚子。


那么,生成这一系列风景照的GauGAN2,背后究竟用了什么原理?

它与OpenAI今年发布的DALL·E和CLIP,又究竟有什么区别?

与DALL·E有什么不同?


2019年,英伟达GauGAN2的“前身”GauGAN正式开源。

当时的它,还只拥有其中一个能力,就是将涂鸦直接变成风景画,就像「神笔马良」一样,还推出了对应的软件Canvas:


当然,这时GauGAN已经能随意改变画面风格了,从白天黑夜到春夏秋冬的气质都能稳稳“拿捏”:


据英伟达介绍,GauGAN采用了一种基于空间适应标准化(SPADE)算法。

SPADE算法不仅使用随机的输入图像,还采用了一种被称作“分割图”的图像。 在分割图中,每一个像素都会被归类,来生成更接近于真实的图像,这种模式被称作“图对图翻译”。

GauGAN的技能点(狗头)

现在,英伟达将GauGAN升级成了GauGAN2,后者一共采用了 1000万 张高质量的图片、在英伟达Selene超算上进行训练,这台超算在Green500排行榜上排到世界第二。

生成这些风景画的效果和“手法”,是不是感觉有点熟悉?

没错,大多数人看到GauGAN2的第一眼,可能都会觉得它和OpenAI的DALL·E+CLIP有点像。

今年年初,OpenAI用DALL·E和CLIP两个模型,做了个“图像版”GPT-3,同样能用一句话生成图片。


不过,这两个模型生成的内容其实不太一样。

GauGAN2专注于生成风景照,DALL·E+CLIP则更多地生成具体的物体,例如一把椅子或者一个闹钟等。


这与它们的原理差异也有关系,GauGAN2更加注重“单词与视觉效果”之间的关系,例如“冬天”这种模糊的状态词给照片带来的效果;DALL·E+CLIP则更注重“文字-图像”这种有明确对应关系的物体效果。

据英伟达介绍,GauGAN2不同于“文本-图像”和“分割图像-图像”一类的模型,它所能产生的照片种类更多,质量也会更高。

不过,偶尔也会出现点bug…

比如给出“沙滩(beach)”一词后,有些生成的画面中出现了语言无法描述的事物。


对此,英伟达表示,他们在训练中“完全没有用到任何人像照片”。(所以可能是偶然?)

但这样一来,网友想要的“瑞克摇(Rick roll)”和“鬼畜视频生成”,GauGAN2大概也是没办法实现了。


但是能生成仿佛梦境中才能见到的画面,也吸引了不少人来试玩。

这不,有人就晒出了自己生成的抽象画大作,并表示自己非常喜欢这个模型:


还有人表示,GauGAN2给出了一些建筑设计的新idea啊。


也有网友觉得这种能够自动生成景观的功能,未来Adobe可能也会用上。

或许就是下一个画手利器?


最后,GauGAN2在浏览器上就能试玩,欢迎大家留言讨论自己的体验感受~
GauGAN2试玩Demo地址:
http://gaugan.org/gaugan2/

参考链接:
[1]https://twitter.com/NVIDIAAI/status/1462835802266902535
[2]https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/?ncid=so-twit-261232-vt16#cid=nr01_so-twit_en-us
[3]https://venturebeat.com/2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/
[4]https://www.zdnet.com/article/the-absurd-beauty-of-hacking-nvidias-gaugan-2-ai-image-machine/
[5]https://blogs.microsoft.com/ai/drawing-bot/
[6]https://www.nvidia.com/en-us/studio/canvas/

—— END ——

登录查看更多
0

相关内容

NVIDIA(全称NVIDIA Corporation,NASDAQ:NVDA,发音:IPA:/ɛnvɪdɪə/,台湾官方中文名为輝達),创立于1993年4月,是一家以设计显示芯片和芯片组为主的半导体公司。NVIDIA亦会设计游戏机核心,例如Xbox和PlayStation 3。NVIDIA最出名的产品线是为个人与游戏玩家所设计的GeForce系列,为专业工作站而设计的Quadro系列,以及为服务器和高效运算而设计的Tesla系列。 NVIDIA的总部设在美国加利福尼亚州的圣克拉拉。是一家无晶圆(Fabless)IC半导体设计公司。"NVIDIA"的读音与英文"video"相似,亦与西班牙文evidia(英文"envy")相似。现任总裁为黄仁勋。
【CVPR2022】用于全身图像生成的 InsetGAN
专知会员服务
25+阅读 · 2022年3月17日
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
专知会员服务
18+阅读 · 2021年9月23日
打怪升级!2020机器学习工程师技术路线图
专知会员服务
98+阅读 · 2020年6月3日
【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》,63页PPT
专知会员服务
27+阅读 · 2019年11月2日
3D模型“换皮肤”有多简单?也就一句话的事
量子位
0+阅读 · 2021年12月29日
英伟达把P图软件GAN了
量子位
0+阅读 · 2021年12月5日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
21+阅读 · 2018年5月23日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员