成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
谷歌赢两次?AI作画大师Parti一出,DALL-E 2.0成「爷爷辈」了
2022 年 6 月 23 日
新智元
新智元报道
编辑:David
如願
好困
【新智元导读】
时隔仅一月,谷歌又推出新的「AI画图」模型Parti,换个姿势吊打其他选手,两战告捷!
最近,在「AI画画」这一块,大厂们又卷上了新高度!
4月,在GPT-3大模型的加持下,Open AI对画图界的扛把子DALL-E进行了2.0版的全面升级。
让自然语言生成图像达到了全新的高度。比如下面这幅「孙子玩儿电脑」(非骂街)。
5月,谷歌不甘落后推出AI创作神器Imagen,效果奇佳。
号称重夺AI画画老大哥地位的Imagen,迅速被国外网友玩出了新高度,一波「虎戴VR」热度直接起飞。
有人惊呼,现在的新模型的保质期只有一个月了么?
谷歌一看,这是要开卷的节奏,不如我再进一步,再搞个新的AI大画家吧。
于是,只过了一个月,新一代AI绘画大师Parti就来了!
Parti,全名叫「Pathways Autoregressive Text-to-Image」,是谷歌大脑老大Jeff Dean提出的多任务AI大模型蓝图Pathway的一部分。
Jeff Dean在社交媒体上第一时间推广了一波。
同时他也表示,和一个月之前的「老前辈」Imagen相比,这次的Parti使用的是不同的技术路线。
为此,谷歌AI专门写了一篇博客文章,对比了两个「AI大画家」在技术层面上的区别。
虽然Imagen和Parti使用类似技术,不过但具体的策略是不同的——自回归和扩散。这样互补的方式使得两个强大模型的有了更加令人期待的组合!
从Imagen到Parti,谷歌又整了啥新活?
先来回顾一下「老前辈」Imagen,它是一个Diffusion模型,学习将随机点的图案转换为图像。
这些图像首先以低分辨率开始,然后通过超分辨率技术,不断的丰富图像的信息,进而达到提高图像分辨率的目的。
具体点讲,就是:
在用户输入文本后,如「一只戴着蓝色格子贝雷帽、穿着红色波点高领毛衣的金毛犬」,Imagen先使用一个冻结(frozen)T5-XXL 编码器将输入文本映射到嵌入序列和64×64图像扩散模型,再将生成的64×64图像上采样为256 × 256图像,最后上采样为1024 × 1024图像。
而这次新推出Parti是一个自回归模型,它的方法首先将一组图像转换为一系列代码条目,类似于拼图。然后将给定的文本提示转换为这些代码条目并「拼成」一个新图像。
换言之,Parti将「文本到图像的生成」转换成一个「序列到序列」的建模问题,类似于机器翻译——这使得它能够受益于大型语言模型(如PaLM),这对于处理长而复杂的文本提示和生成高质量的图像至关重要。
在这种情况下,目标输出是图像token的序列,而不是另一种语言的文本token。
Parti通过使用功能强大的图像标记器「ViT-VQGAN」将图像编码为离散token序列,并利用其重建图像token序列的能力,使其成为高质量、视觉多样化的图像。
参数从3.5亿到200亿:有啥区别?
Parti的模型规模支持扩展,最高可扩展至200亿参数。
参数越多,模型规模越大,生成图像的细节越丰富,错误信息也明显降低。
比如面对同样的文本输入:
身穿橙色连帽衫和蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上,胸前举着写着「欢迎朋友」的标语
在3.5亿参数下,袋鼠的眼镜不是蓝色,而且PS痕迹明显,背景只体现出「草地」,悉尼歌剧院基本看不出来。举的牌子上更不知道是哪国文字。
到了7.5亿参数下,眼镜颜色和背景都和文字准确对上了,但却多了另一只带着蓝眼镜的袋鼠。
扩展到30亿参数,之前的袋鼠不见了,但举的牌子多了一块,上面的字仍有拼写错误,但大概能看出是「欢迎朋友」了。但背景中的悉尼歌剧院似乎开了「影分身」。
最终在200亿参数下,文字中的内容得到准确再现。
换一张图,也是如此。文本信息细节越少,体现的越明显。
比如文本是
「小提琴的背面」
这几个字:
直到30亿参数下,生成的图像仍然是「小提琴的正面」,直到200亿参数下,才生成了正确的图像。
多面手「艺术家」,风格百搭
除了由模型参数量扩大带来的细节提升外,画画最要紧的是能画出不同风格,要都是千篇一律,那还叫艺术家吗?
Parti表示,这挺简单的。
比如命题作画:
一只浣熊穿正装,头戴礼帽,拄着拐杖,拿着个垃圾袋。
就能画出梵高风格的:
埃及法老风格的:
甚至是像素艺术风的:
再比如下面的文字:
「一只老虎戴着列车长的帽子,手里拿着一块滑板,上面有一个阴阳符号。」
也可以画成油画风,真真的那种 。
或者版画风,酷酷的那种。
甚至国画风,萌萌的那种。
当然,也有翻车的时候。
比如下面这个作品,文字是
「一个没有香蕉的盘子,旁边有一个没有橙汁的玻璃杯。」
然而,生成的图片中盘子里全是香蕉,玻璃杯里也几乎盛满了橙汁!
就当是艺术家偶尔打了个盹吧!
看起来,以后「斗图界」说不定可以告别表情包了,想要什么图,打字就行了!
早些年要是能有这样的神器,「美术课恐惧症」的小编可能也会免去不少不堪回首的回忆吧。
参考资料:
https://parti.research.google/
https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
Gen
关注
0
历时2年442位作者132个机构!Google发布语言模型评价新基准BIG-bench,204个任务全面评价大语言模型的能力
专知会员服务
19+阅读 · 2022年6月10日
5400亿!谷歌「Pathways语言模型」发布,能理解做推理生成代码
专知会员服务
38+阅读 · 2022年4月5日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
40+阅读 · 2022年3月12日
【AAAI2022】可解释性ViT登场,谷歌AI提出层次嵌套Transformer模型
专知会员服务
28+阅读 · 2022年1月28日
【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理
专知会员服务
10+阅读 · 2021年12月10日
【ACL2021】预训练语言模型的少样本知识图谱文本生成
专知会员服务
41+阅读 · 2021年6月6日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
35+阅读 · 2020年9月2日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
Google AI博客解读论文《Reformer: The Efficient Transformer》,百万量级注意力机制
专知会员服务
69+阅读 · 2020年1月17日
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscopicsilicovolcanoconiosis
量子位
0+阅读 · 2022年6月30日
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
机器之心
1+阅读 · 2022年6月26日
谷歌新作Imagen:用Transformer和扩散模型把"文字到图像生成"卷上天!
CVer
0+阅读 · 2022年5月27日
AI作画新高度!谷歌发布imagen,效果惊艳全场
夕小瑶的卖萌屋
0+阅读 · 2022年5月25日
谷歌夺回AI画语权,机器的想象力达到全新高度,网友:DALL·E 2诞生一个月就过时了?
THU数据派
0+阅读 · 2022年5月24日
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型Imagen
大数据文摘
1+阅读 · 2022年5月24日
无痕 PS、读得懂文字,OpenAI 的二代 DALL·E 惊艳亮相!
CSDN
0+阅读 · 2022年4月14日
DALL·E这波超进化,画质艺术感双飞升,还学会了无痕P图
量子位
0+阅读 · 2022年4月7日
改代码超级快!GPT-3新增编辑与插入文本功能,AI能为你写诗了
新智元
0+阅读 · 2022年3月22日
给几个关键词就能出摄影大片,英伟达GauGAN上新2.0:将文本转成逼真图像
机器之心
0+阅读 · 2021年11月23日
Lai-Massey分组密码模型的安全性研究
国家自然科学基金
1+阅读 · 2012年12月31日
子空间学习粒子群算法及在图像过完备稀疏分解上的应用
国家自然科学基金
0+阅读 · 2012年12月31日
基于语义的敦煌壁画的模拟与渲染
国家自然科学基金
0+阅读 · 2012年12月31日
用于非对称语料的语音转换函数训练算法研究
国家自然科学基金
0+阅读 · 2012年12月31日
基于高通量SNP标记和关联分析整合分析油菜磷高效QTL及候选基因研究
国家自然科学基金
0+阅读 · 2012年12月31日
大型语义辞典的自动生成及在文本分析中的应用
国家自然科学基金
1+阅读 · 2012年12月31日
跨语言信息检索中的机器翻译研究
国家自然科学基金
2+阅读 · 2011年12月31日
癌基因Pim-1对细胞衰老的调节作用及其分子机制研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于WWT平台的天文科普展览与e-Science理念普及教育
国家自然科学基金
0+阅读 · 2009年12月31日
基于广义二端口12项误差模型的多端口矢量网络分析仪校准及误差修正技术
国家自然科学基金
0+阅读 · 2008年12月31日
The massless modular Hamiltonian
Arxiv
0+阅读 · 2022年9月6日
Inverse methods: How feasible are spatially low-resolved capacity expansion modeling results when dis-aggregated at high resolution?
Arxiv
0+阅读 · 2022年9月6日
Byzantine Consensus is Θ(n^2): The Dolev-Reischuk Bound is Tight even in Partial Synchrony! [Extended Version]
Arxiv
0+阅读 · 2022年9月6日
Automatic Code Documentation Generation Using GPT-3
Arxiv
0+阅读 · 2022年9月6日
Multi-Figurative Language Generation
Arxiv
0+阅读 · 2022年9月5日
Stochastic Simulation Uncertainty Analysis to Accelerate Flexible Biomanufacturing Process Development
Arxiv
0+阅读 · 2022年9月3日
Analysis of an implicitly extended Crank-Nicolson scheme for the heat equation on time-dependent domains
Arxiv
0+阅读 · 2022年9月3日
Elaboration-Generating Commonsense Question Answering at Scale
Arxiv
0+阅读 · 2022年9月2日
Analysis of a Greedy Heuristic for the Labeling of a Map with a Time-Window Interface
Arxiv
0+阅读 · 2022年9月2日
EvolvingBehavior: Towards Co-Creative Evolution of Behavior Trees for Game NPCs
Arxiv
0+阅读 · 2022年9月1日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
Gen
谷歌
大模型
语言生成
AI
Jeff Dean
相关VIP内容
历时2年442位作者132个机构!Google发布语言模型评价新基准BIG-bench,204个任务全面评价大语言模型的能力
专知会员服务
19+阅读 · 2022年6月10日
5400亿!谷歌「Pathways语言模型」发布,能理解做推理生成代码
专知会员服务
38+阅读 · 2022年4月5日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
40+阅读 · 2022年3月12日
【AAAI2022】可解释性ViT登场,谷歌AI提出层次嵌套Transformer模型
专知会员服务
28+阅读 · 2022年1月28日
【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理
专知会员服务
10+阅读 · 2021年12月10日
【ACL2021】预训练语言模型的少样本知识图谱文本生成
专知会员服务
41+阅读 · 2021年6月6日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
35+阅读 · 2020年9月2日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
Google AI博客解读论文《Reformer: The Efficient Transformer》,百万量级注意力机制
专知会员服务
69+阅读 · 2020年1月17日
热门VIP内容
开通专知VIP会员 享更多权益服务
《优化联合作战准备:日本视角》最新21页
《基于嵌入式导弹系统的自主防空系统以挫败巡航威胁的定量论证》90页
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
相关资讯
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscopicsilicovolcanoconiosis
量子位
0+阅读 · 2022年6月30日
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
机器之心
1+阅读 · 2022年6月26日
谷歌新作Imagen:用Transformer和扩散模型把"文字到图像生成"卷上天!
CVer
0+阅读 · 2022年5月27日
AI作画新高度!谷歌发布imagen,效果惊艳全场
夕小瑶的卖萌屋
0+阅读 · 2022年5月25日
谷歌夺回AI画语权,机器的想象力达到全新高度,网友:DALL·E 2诞生一个月就过时了?
THU数据派
0+阅读 · 2022年5月24日
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型Imagen
大数据文摘
1+阅读 · 2022年5月24日
无痕 PS、读得懂文字,OpenAI 的二代 DALL·E 惊艳亮相!
CSDN
0+阅读 · 2022年4月14日
DALL·E这波超进化,画质艺术感双飞升,还学会了无痕P图
量子位
0+阅读 · 2022年4月7日
改代码超级快!GPT-3新增编辑与插入文本功能,AI能为你写诗了
新智元
0+阅读 · 2022年3月22日
给几个关键词就能出摄影大片,英伟达GauGAN上新2.0:将文本转成逼真图像
机器之心
0+阅读 · 2021年11月23日
相关基金
Lai-Massey分组密码模型的安全性研究
国家自然科学基金
1+阅读 · 2012年12月31日
子空间学习粒子群算法及在图像过完备稀疏分解上的应用
国家自然科学基金
0+阅读 · 2012年12月31日
基于语义的敦煌壁画的模拟与渲染
国家自然科学基金
0+阅读 · 2012年12月31日
用于非对称语料的语音转换函数训练算法研究
国家自然科学基金
0+阅读 · 2012年12月31日
基于高通量SNP标记和关联分析整合分析油菜磷高效QTL及候选基因研究
国家自然科学基金
0+阅读 · 2012年12月31日
大型语义辞典的自动生成及在文本分析中的应用
国家自然科学基金
1+阅读 · 2012年12月31日
跨语言信息检索中的机器翻译研究
国家自然科学基金
2+阅读 · 2011年12月31日
癌基因Pim-1对细胞衰老的调节作用及其分子机制研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于WWT平台的天文科普展览与e-Science理念普及教育
国家自然科学基金
0+阅读 · 2009年12月31日
基于广义二端口12项误差模型的多端口矢量网络分析仪校准及误差修正技术
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
The massless modular Hamiltonian
Arxiv
0+阅读 · 2022年9月6日
Inverse methods: How feasible are spatially low-resolved capacity expansion modeling results when dis-aggregated at high resolution?
Arxiv
0+阅读 · 2022年9月6日
Byzantine Consensus is Θ(n^2): The Dolev-Reischuk Bound is Tight even in Partial Synchrony! [Extended Version]
Arxiv
0+阅读 · 2022年9月6日
Automatic Code Documentation Generation Using GPT-3
Arxiv
0+阅读 · 2022年9月6日
Multi-Figurative Language Generation
Arxiv
0+阅读 · 2022年9月5日
Stochastic Simulation Uncertainty Analysis to Accelerate Flexible Biomanufacturing Process Development
Arxiv
0+阅读 · 2022年9月3日
Analysis of an implicitly extended Crank-Nicolson scheme for the heat equation on time-dependent domains
Arxiv
0+阅读 · 2022年9月3日
Elaboration-Generating Commonsense Question Answering at Scale
Arxiv
0+阅读 · 2022年9月2日
Analysis of a Greedy Heuristic for the Labeling of a Map with a Time-Window Interface
Arxiv
0+阅读 · 2022年9月2日
EvolvingBehavior: Towards Co-Creative Evolution of Behavior Trees for Game NPCs
Arxiv
0+阅读 · 2022年9月1日
大家都在搜
洛克菲勒
自主可控
大型语言模型
CMU博士论文
技术报告
无人艇
palantir
金刚经
SMT
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top