原画师惊呆：这个爆火AI真把梦境画成现实了！下载APP人人可用

会员服务 ·

原画师惊呆：这个爆火AI真把梦境画成现实了！下载APP人人可用

2022 年 4 月 27 日 量子位

明敏梦晨发自凹非寺
量子位 | 公众号 QbitAI

没想到，平常都是我拿着最新AI的Demo到处去安利。

这回竟然被美术圈的朋友安利了一个AI绘画APP？？？

话不多说先看效果：

这摩登又玄幻的画面，一上来就冲击到我了。

抽象的线条兼具了美感和想象力，同时还传递出未来城市的感觉。

要不是被剧透，我还真不一定能立刻猜出来这是出自AI之手。

而且除了能对照片进行二改，这个AI还能根据文字命题、凭自己想象作画。

比如输入落日飞车四个字，在AI的“想象”中会是这样：

另外还可以画出不同画风，目前已支持20种。

还真是能满足你提出的所有需求，怪不得能征服美术设计圈（doge）。

AI画完后，甚至可以一键保存成手机壁纸。

在微信公众号后台回复“wombo”，可开盲盒获得随机壁纸，总共5款哦～

过去几天，这款APP还在Apple Store图形和设计区霸榜多日（安卓版本也有）。

要知道，过去美术圈、艺术圈可是有不少人吐槽AI生成的内容没得灵魂。。。

结果现在纷纷在社交平台上po自己的作品，还有设计区大V要专门聊聊这个事儿。

但更让我震惊的是，这个APP背后公司的故事。

公司创始人现在只有25岁，为了创业，他直接从多伦多大学退学。

公司首次推出的APP（WOMBO.AI），能让照片对口型唱歌。

‍‍没错，就是那个此前在抖音上爆火、席卷全球互联网的魔性特效。

凭借着这款APP，这家公司估值直冲4000万美元（折合人民币约2.5亿）。

而他们最初的启动资金，只有6万美元。

这不禁让人好奇，到底是怎样的一伙人，能凭借AI一次又一次做出全球爆火的APP？

25岁辍学创业，公司估值4000万美元

先从小哥的公司Wombo创办说起。

Wombo是一家加拿大公司，创始人及CEO名叫Ben-Zion Benkhin，今年25岁。

（接下来我们暂时用“小本哥”来称呼他）

小本哥本来是多伦多大学数学与哲学专业的一位学生。

在学校的时候，他组建过一个人工智能兴趣社团，自己对deepfake也十分感兴趣。

2020年8月的一个夏夜，小本哥和他的室友在公寓屋顶上吹风，突然灵光一现：

为什么没有人做一个APP，可以把一张普通的照片变成搞笑视频？

△Wombo效果

在经过4个小时的讨论之后，Wombo的雏形轮廓逐渐清晰了起来。

虽然当时吹风的时候小本哥还顺带飞了点叶子（doge），但是他对这个想法还真不是一时上头。

为此，他选择辍学完成创业。

同时还拉来了自己做管理顾问的朋友Paul Pavel一起“搞‍事”，并在多伦多大学招募了一些学生。

‍其中Angad Arneja放弃了全额奖学金，选择和小本哥一样辍学，现在他是Wombo的人力主管。

公司最初启动资金有6万美元，主要依靠各位创始人的父母慷慨解囊。

小本哥说这些钱主要用在了买电脑、招募开发人员和品牌推广上。

大约半年以后，2021年2月28日，Wombo就准备好发布了。

小本哥和其他公司创始人们把这个应用发给了大约10个人。

一周之内，Wombo的下载量就达到了50万次。

第二周，这个数字跃升到了900万。

由此，Wombo也引起了各方投资人的关注，顺利拿到了由Global Founders Capital和Sofreh Capital共同领投600万美元天使轮。

现在估值达到了4000万美元。

值得一提的是，Wombo在爆火前，曾被200多家VC拒绝过。

所以这一波下来，真正赢麻了的是最初提供启动资金的家长们。

比如Paul Pavel的父母就是资助2万美元，最终换来了数十万美元的股票。

目前，Wombo旗下的两个APP下载量已经达到了8400万+，月活用户超过1000万。

Wombo上的创作量已经达到10亿，Dream by Wombo这一数据也达到了1.8亿。

由此带来的收入也非常可观，去年Wombo上线4个多月，依靠内部广告和免费歌曲库获得了数十万美元的收入。

Dream by Wombo支持用户购买自己用AI生成的作品。

20美元可定制一张海报，加边框的价格则从45美元起算。

这个AI是怎么画画的？

让AI根据文字作画，了解AI的朋友会知道这属于多模态生成。

模态，指的是文本、图像、声音等不同的信息表现形式。

多模态，则是把不同类型的信息结合起来。

如果给每个图片标上文字描述组成一对，用大量这种图文对去训练AI，就能让它理解到图文之间的对应关系。

OpenAI开源的CLIP就是这个原理，Wombo工程师也曾在一次采访中透露过，他们的算法中就使用了CLIP。

CLIP使用了4亿组从网上收集的图文对做训练，可以理解颜色和形状，日常物品或建筑物，甚至抽象的艺术风格比如“印象派”或“赛博朋克”。

△CLIP训练数据示例

接下来，还要解决图像生成的部分。

没错，又要请出GAN了，而且这次GAN要接受CLIP的指挥。

整个流程是这样的：

首先生成一张平平无奇的随机图像当种子。

让CLIP给图像与文字描述的相似度打分，反馈给GAN，GAN以提升分数为目标不断迭代。

整个迭代过程可以在App中直观地看到。

其中的随机性意味着AI几乎不可能两次生成同样的图像。

如果第一次结果不满意，还可以点击按钮用相同配置再试一次。

至于Wombo的算法具体使用了哪种GAN，并未公开。

但在招聘信息里，高级机器学习工程师的岗位描述中写着，有DC-GAN经验的优先。

DC-GAN最早于2015年提出，是第一个使用深度卷积网络生成图像的GAN变体。

意味着Wombo的算法大概率是以此为基础改进而来。

Wombo选择卷积网络而不是Transformer的理由也不难猜。

要做成移动App给全球玩家使用，而且生成的是高分辨率图像，卷积在效率上要占优势。

CLIP+GAN结合成AI画家的方法并非Wombo首创。

CLIP于2021年1月发布，第二天网友@advadnoun就开始试验其与各种生成模型的组合。

最终他选择了BigGAN，将代码发布为Colab笔记The Big Sleep

早期The Big Sleep生成的画，怎么说呢，总是带点精神污染，分辨率也不高。

（建议不要去翻@advadnoun的早期分享，真的有毒）

后来西班牙玩家Katherine Crowson在此基础上发布了CLIP+VQGAN的版本。

VQGAN是CVPR 2021 Oral入选论文，将CNN的高效率和Transformer的高性能结合起来，生成的图像质量更高。

这一版Colab笔记真正流行了起来，不少人开始分享AI创作的画，还开发出各种技巧。

比如文字提示中加入虚幻引擎或者光线追踪，画质还能大幅提升。

围绕CLIP+VQGAN开始形成社区，代码不断有人做优化改进，还有了专门收集发布AI画作的账号。

而最早的先驱@advadnoun还顺利入职Adobe担任研究员。

但这一波AI作画浪潮的玩家主要还是技术爱好者。

毕竟在Colab上排队申请GPU、运行代码训练AI，时不时还要处理一下报错，门槛还是有点高了。

直到Dream by WOMBO的出现，改变了一切。

AI作画开始被认真对待

实际上，这几年已经浮现出不少让AI作画的技术工具。

最早是谷歌在2015年推出的DeepDream。

后来，除了前面提到的以外，还有英伟达的GauGAN、OpenAI的DALL·E，开源的Disco Diffusion等。

凭借着独一无二还惊艳众人的特点，AI作画影响到的圈层也越来越广泛，比较典型的有美术圈、艺术收藏圈以及NFT领域。

首先来看美术圈，他们接触更多的是Disco Diffusion。

这款AI用扩散模型代替了GAN，生成图像的质量更高，几乎达到了原画级。

尽管要在Colab上自己运行代码，门槛不低，但还是大受欢迎，甚至出现了专门收集提示词的共享文档。

知乎上最近也有一个与之相关的热门话题。

AI绘画会对美术行业产生什么样的影响呢？

在这个讨论中，大部分人都觉得，AI对当下美术圈的影响还比较有限。

但是未来呢？大家的观点不尽相同。

有人认为AI可以成为创作者的辅助工具；有人却觉得AI能直接取代画师。

知乎答主@画画的花噎菜认为，AI绘画依旧淘汰不了绘画行业。

往远了说，照相机没有淘汰写实油画；往近了说3D辅助也没有淘汰写实数绘。
……
如果你还是怕被抢了饭碗，那不妨让自己画得好一点。因为不论什么行业，高端的市场都是最难被淘汰的。

@鱼一般也觉得，AI将会是专业画师手中一个很好的工具，可以提供很多灵感，也可以当做底稿使用。

@Liuuzaki虽然也赞同AI在想象力上是长板，但他认为，AI有一天会取代与之工作方式相似的从业者。

AI并不擅长逻辑，只擅长美感。它是天生的艺术家，而不是工程师。

这种工作方式很像现在的一些美术工作者。

而如果再把目光延伸到艺术收藏圈来看，AI作画在这几年已经带来了一些肉眼可见的影响。

2018年，一幅由AI创作出的肖像画在纽约佳士得拍卖会上以43.2万美元成交。

这一价格也是该场拍卖会的最高成交价，甚至超过了同场拍卖的毕加索作品。

这幅画最大的噱头，便是用GAN作画所带来的的独一无二性。

One More Thing

最后，AI作画还影响到了同样在冲击艺术圈的NFT。

此前有人推出了一个平台Eponym。

它能够利用AI将文本转化为图画，然后再将这些作品直接铸造到最大的NFT市场OpenSea。

在这个平台上，每个文本只能生成一幅画作。

由它推出第一批NFT（3500个），在OpenSea上一夜售罄。

△Eponym生成的作品

关于AI作画将成为NFT领域的下一个趋势，也成为最近圈内热议的话题。

实际上，Wombo也有进军NFT领域的打算。

去年年底，有位网友在推特上向他们发问：

你们是否把用户生成的画作铸造成了NFT？

对此官方给出回应：目前还没有铸造，但是正在考虑这一计划！

这事儿，你怎么看呢？

（别忘了在微信公众号后台回复“wombo”，可开盲盒获得随机壁纸～）

AI绘图灵感共享库：
https://docs.qq.com/sheet/DWFR0VmpQa3ZtbXda

TheBigSleep：
https://colab.research.google.com/drive/1NCceX2mbiKOSlAd_o7IU7nA9UskKN5WR

CLIP+VQGAN：
https://ljvmiranda921.github.io/notebook/2021/08/11/vqgan-list/

Disco Diffusion：
https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb

参考链接：
[1]https://www.theglobeandmail.com/business/article-making-it-by-faking-it-how-torontos-wombo-became-canadas-fastest/
[2]https://www.8btc.com/article/6722724
[3]https://artthescience.com/magazine/2022/02/16/features-wombo-dream-and-ai-art-with-salman-shahid/
[4]https://weibo.com/u/5619550614?is_hot=1
[5]https://www.zhihu.com/question/528563685/answer/2447959396
[6]https://www.zhihu.com/question/528563685/answer/2445286621
[7]https://www.zhihu.com/question/528563685/answer/2445279372

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

关注 7047

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

绝了！高颜值妹子3年写了一本1200页的AI全栈技术手册手册！（限时公开下载）

专知会员服务

103+阅读 · 2022年6月8日

斯坦福大学NLU公开课CS224U来了，视频代码PPT都有

专知会员服务

42+阅读 · 2022年4月11日

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

专知会员服务

896+阅读 · 2022年3月1日

如何用latext画神经网络？这个PlotNeuralNet能帮到你

专知会员服务

26+阅读 · 2022年1月15日