谷歌赢两次？AI作画大师Parti一出，DALL-E 2.0成「爷爷辈」了

会员服务 ·

谷歌赢两次？AI作画大师Parti一出，DALL-E 2.0成「爷爷辈」了

2022 年 6 月 23 日 新智元

新智元报道

编辑：David 如願好困

【新智元导读】时隔仅一月，谷歌又推出新的「AI画图」模型Parti，换个姿势吊打其他选手，两战告捷！

最近，在「AI画画」这一块，大厂们又卷上了新高度！

4月，在GPT-3大模型的加持下，Open AI对画图界的扛把子DALL-E进行了2.0版的全面升级。

让自然语言生成图像达到了全新的高度。比如下面这幅「孙子玩儿电脑」（非骂街）。

5月，谷歌不甘落后推出AI创作神器Imagen，效果奇佳。

号称重夺AI画画老大哥地位的Imagen，迅速被国外网友玩出了新高度，一波「虎戴VR」热度直接起飞。

有人惊呼，现在的新模型的保质期只有一个月了么？

谷歌一看，这是要开卷的节奏，不如我再进一步，再搞个新的AI大画家吧。

于是，只过了一个月，新一代AI绘画大师Parti就来了！

Parti，全名叫「Pathways Autoregressive Text-to-Image」，是谷歌大脑老大Jeff Dean提出的多任务AI大模型蓝图Pathway的一部分。

Jeff Dean在社交媒体上第一时间推广了一波。

同时他也表示，和一个月之前的「老前辈」Imagen相比，这次的Parti使用的是不同的技术路线。

为此，谷歌AI专门写了一篇博客文章，对比了两个「AI大画家」在技术层面上的区别。

虽然Imagen和Parti使用类似技术，不过但具体的策略是不同的——自回归和扩散。这样互补的方式使得两个强大模型的有了更加令人期待的组合！

从Imagen到Parti，谷歌又整了啥新活？

先来回顾一下「老前辈」Imagen，它是一个Diffusion模型，学习将随机点的图案转换为图像。

这些图像首先以低分辨率开始，然后通过超分辨率技术，不断的丰富图像的信息，进而达到提高图像分辨率的目的。

具体点讲，就是：

在用户输入文本后，如「一只戴着蓝色格子贝雷帽、穿着红色波点高领毛衣的金毛犬」，Imagen先使用一个冻结（frozen）T5-XXL 编码器将输入文本映射到嵌入序列和64×64图像扩散模型，再将生成的64×64图像上采样为256 × 256图像，最后上采样为1024 × 1024图像。

而这次新推出Parti是一个自回归模型，它的方法首先将一组图像转换为一系列代码条目，类似于拼图。然后将给定的文本提示转换为这些代码条目并「拼成」一个新图像。

换言之，Parti将「文本到图像的生成」转换成一个「序列到序列」的建模问题，类似于机器翻译——这使得它能够受益于大型语言模型（如PaLM），这对于处理长而复杂的文本提示和生成高质量的图像至关重要。

在这种情况下，目标输出是图像token的序列，而不是另一种语言的文本token。

Parti通过使用功能强大的图像标记器「ViT-VQGAN」将图像编码为离散token序列，并利用其重建图像token序列的能力，使其成为高质量、视觉多样化的图像。

参数从3.5亿到200亿：有啥区别？

Parti的模型规模支持扩展，最高可扩展至200亿参数。

参数越多，模型规模越大，生成图像的细节越丰富，错误信息也明显降低。

比如面对同样的文本输入：

身穿橙色连帽衫和蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上，胸前举着写着「欢迎朋友」的标语

在3.5亿参数下，袋鼠的眼镜不是蓝色，而且PS痕迹明显，背景只体现出「草地」，悉尼歌剧院基本看不出来。举的牌子上更不知道是哪国文字。

到了7.5亿参数下，眼镜颜色和背景都和文字准确对上了，但却多了另一只带着蓝眼镜的袋鼠。

扩展到30亿参数，之前的袋鼠不见了，但举的牌子多了一块，上面的字仍有拼写错误，但大概能看出是「欢迎朋友」了。但背景中的悉尼歌剧院似乎开了「影分身」。

最终在200亿参数下，文字中的内容得到准确再现。

换一张图，也是如此。文本信息细节越少，体现的越明显。

比如文本是「小提琴的背面」这几个字：

直到30亿参数下，生成的图像仍然是「小提琴的正面」，直到200亿参数下，才生成了正确的图像。

多面手「艺术家」，风格百搭

除了由模型参数量扩大带来的细节提升外，画画最要紧的是能画出不同风格，要都是千篇一律，那还叫艺术家吗？

Parti表示，这挺简单的。

比如命题作画：

一只浣熊穿正装，头戴礼帽，拄着拐杖，拿着个垃圾袋。

就能画出梵高风格的：

埃及法老风格的：

甚至是像素艺术风的：

再比如下面的文字：

「一只老虎戴着列车长的帽子，手里拿着一块滑板，上面有一个阴阳符号。」

也可以画成油画风，真真的那种。

或者版画风，酷酷的那种。

甚至国画风，萌萌的那种。

当然，也有翻车的时候。

比如下面这个作品，文字是「一个没有香蕉的盘子,旁边有一个没有橙汁的玻璃杯。」

然而，生成的图片中盘子里全是香蕉，玻璃杯里也几乎盛满了橙汁！

就当是艺术家偶尔打了个盹吧！

看起来，以后「斗图界」说不定可以告别表情包了，想要什么图，打字就行了！

早些年要是能有这样的神器，「美术课恐惧症」的小编可能也会免去不少不堪回首的回忆吧。

参考资料：

https://parti.research.google/

https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/

登录查看更多

相关内容

Gen

关注 0

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【AAAI2022】可解释性ViT登场，谷歌AI提出层次嵌套Transformer模型

专知会员服务

29+阅读 · 2022年1月28日

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

专知会员服务

11+阅读 · 2021年12月10日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

谷歌新AI火了！世界最长单词都能画：Pneumonoultramicroscopicsilicovolcanoconiosis

量子位

0+阅读 · 2022年6月30日

谷歌开始卷自己，AI架构Pathways加持，推出200亿生成模型

机器之心

1+阅读 · 2022年6月26日

谷歌新作Imagen：用Transformer和扩散模型把"文字到图像生成"卷上天！

CVer

0+阅读 · 2022年5月27日

AI作画新高度！谷歌发布imagen，效果惊艳全场

夕小瑶的卖萌屋

0+阅读 · 2022年5月25日

谷歌夺回AI画语权，机器的想象力达到全新高度，网友：DALL·E 2诞生一个月就过时了？

THU数据派

0+阅读 · 2022年5月24日

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

大数据文摘

1+阅读 · 2022年5月24日

无痕 PS、读得懂文字，OpenAI 的二代 DALL·E 惊艳亮相！

CSDN

0+阅读 · 2022年4月14日

DALL·E这波超进化，画质艺术感双飞升，还学会了无痕P图

量子位

0+阅读 · 2022年4月7日

改代码超级快！GPT-3新增编辑与插入文本功能，AI能为你写诗了

新智元

0+阅读 · 2022年3月22日

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成逼真图像

机器之心

0+阅读 · 2021年11月23日

Lai-Massey分组密码模型的安全性研究

国家自然科学基金

1+阅读 · 2012年12月31日

子空间学习粒子群算法及在图像过完备稀疏分解上的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义的敦煌壁画的模拟与渲染

国家自然科学基金

0+阅读 · 2012年12月31日

用于非对称语料的语音转换函数训练算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于高通量SNP标记和关联分析整合分析油菜磷高效QTL及候选基因研究

国家自然科学基金

0+阅读 · 2012年12月31日

大型语义辞典的自动生成及在文本分析中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

癌基因Pim-1对细胞衰老的调节作用及其分子机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于WWT平台的天文科普展览与e-Science理念普及教育

国家自然科学基金

0+阅读 · 2009年12月31日

基于广义二端口12项误差模型的多端口矢量网络分析仪校准及误差修正技术

国家自然科学基金

0+阅读 · 2008年12月31日

The massless modular Hamiltonian

Arxiv

0+阅读 · 2022年9月6日

Inverse methods: How feasible are spatially low-resolved capacity expansion modeling results when dis-aggregated at high resolution?

Arxiv

0+阅读 · 2022年9月6日

Byzantine Consensus is Θ(n^2): The Dolev-Reischuk Bound is Tight even in Partial Synchrony! [Extended Version]

Arxiv

0+阅读 · 2022年9月6日

Automatic Code Documentation Generation Using GPT-3

Arxiv

0+阅读 · 2022年9月6日

Multi-Figurative Language Generation

Arxiv

0+阅读 · 2022年9月5日

Stochastic Simulation Uncertainty Analysis to Accelerate Flexible Biomanufacturing Process Development

Arxiv

0+阅读 · 2022年9月3日

Analysis of an implicitly extended Crank-Nicolson scheme for the heat equation on time-dependent domains

Arxiv

0+阅读 · 2022年9月3日

Elaboration-Generating Commonsense Question Answering at Scale

Arxiv

0+阅读 · 2022年9月2日

Analysis of a Greedy Heuristic for the Labeling of a Map with a Time-Window Interface

Arxiv

0+阅读 · 2022年9月2日

EvolvingBehavior: Towards Co-Creative Evolution of Behavior Trees for Game NPCs

Arxiv

0+阅读 · 2022年9月1日

VIP会员