英伟达也来卷AI绘画，支持几笔完成精准构图，还提出扩散模型进化新方向

会员服务 ·

英伟达也来卷AI绘画，支持几笔完成精准构图，还提出扩散模型进化新方向

2022 年 11 月 4 日 量子位

丰色发自凹非寺
量子位 | 公众号 QbitAI

英伟达也来卷扩散模型了。

这一次，它将文本生成图像的效果再次提高一个level。

比如，面对超长文本描述，它（下图最右列）比Stable Diffusion和DALL-E 2表达的都更精确：

注意第一组图刺猬的夏威夷风衬衣，以及第三组图猫猫的头盔。

当描述要求展示出具体的文字时，也只有它（下图最右列）可以准确做到：

除此之外，即时样式转换也是小菜一碟，只需一张样图就成。

比如来一个梵高风的泰迪熊冲浪：

或者这样的鸭子：

当然，英伟达最擅长的分割图作画，它也支持，可以让你用寥寥几笔完成精准构图：

（其中，每一个颜色块代表一个元素。）

看起来还阔以吧，它背后的方法也值得说道说道。

两个文本编码器+专家去噪网络

我们知道，扩散模型包含两个阶段：

从原图逐步到噪声的正向过程/扩散过程；

以及从噪声逐步到原图的逆向过程。

第二个过程就是去噪，作者想到，在此阶段，面对不同的噪声水平时都用不同的模型进行处理，也就是开发一个叫做“专家去噪”的网络，效果是不是会更好一些？

于是就诞生了这个新的AIGC工具：eDiffi。

eDiffi的pipeline由三个扩散模型级联而成：

一个可以合成64x64分辨率样本的基础模型，以及两个可以分别将图像分辨率递增到256x256和1024x1024的超分辨率模型。

当模型接收到一条文本描述时，会首先同时计算T5 XXL embedding和CLIP text embedding。

注意是用了两个文本编码器哦，不然效果不会这么好：

Ps. T5指的是谷歌的文本到文本转换器（Text-to-Text Transfer Transformer ），它可以帮助模型做到更精准地理解文本描述。

接着选择根据参考图像计算得出的CLIP图像编码，用作样式向量（可选可不选）。

然后再将所有embedding都馈送到上面的级联扩散模型中，最后逐渐生成分辨率为1024x1024的图像。

再来说说主角：去噪专家（Denoising experts）网络。

我们知道，在扩散模型中，图像的合成是通过迭代去噪过程来完成的，这个过程又指的是从随机噪声中逐渐生成图像。

在传统的扩散模型训练中，都是训练一个模型来对整个噪声分布进行去噪。

而在作者的这个框架中，他们训练了一组专家去噪器，专门用于在生成过程的不同步骤进行去噪。

如下图所示，作者是先从一个完整的随机噪声开始，然后分多个步骤逐步操作，最终生成一张骑自行车的熊猫图像。

一位StabilityAI员工认为，这种方法可能是扩散模型的下一大突破/进步。因为不止英伟达的这个eDiffi，还有百度的文心ERNIE-ViLG 2.0也是这么做的。

zero-shot FID上获SOTA得分

eDiffi模型是在“公共和专有数据集的集合”上训练而成。

其中基础模型花了256块英伟达A100 GPU，两个超分辨率模型则花了128块A100。

用于PK的模型包括GLIDE、Make-A-Scene、DALL-E 2、Stable Diffusion和谷歌的两个图像合成系统Imagen和Parti。

作者从COCO验证集中随机提取30000个文本描述，然后让这些模型生成结果，纪录zero-shot FID-30K得分。

最终，eDiffi获得了最低也就是最佳分数，说明它与文字的匹配度是最高的。

最后，再来两组效果展示和对比：

以及风格迁移的（第一列为参考风格，第二列为结果，第三列为参考图像）：

关于作者

一共有12位，都来自英伟达，其中3位华人：

毕业于康奈尔大学的博士黄勋（AdaIN一作）、毕业于清华本科和斯坦福博士的Song Jiaming以及英伟达高级研究总监Liu MingYu。

目前，该模型还未开源，不过有人表示改动不算大，所以实现起来并不难，应该很快就有人复现出来了。

论文地址：
https://arxiv.org/abs/2211.01324

项目主页：
https://deepimagination.cc/eDiffi/

参考链接：
[1]https://twitter.com/iScienceLuvr/status/1587973173932195840
[2]https://twitter.com/_akhaliq/status/1587971650007564289
[3]https://www.unite.ai/nvidias-ediffi-diffusion-model-allows-painting-with-words-and-more/

— 完 —

「AIGC系列直播 - 应用落地与商业化」直播报名

技术热潮之外，AIGC如何实际落地？又如何长期商业变现？

11月3-4日晚7点到8点，量子位智库联手国内头部AIGC企业及投资机构，为你解答，扫码预约～

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

扩散模型

关注 34

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程，在复杂的图像分布和高斯分布之间建立联系，使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。

Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

专知会员服务

88+阅读 · 2022年12月22日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

基于条件扩散模型的文本到图像合成, 32页ppt

专知会员服务

26+阅读 · 2022年11月21日

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

专知会员服务

49+阅读 · 2022年11月17日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

86+阅读 · 2022年9月13日

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

专知会员服务

123+阅读 · 2022年9月8日

CVPR2022开会了！英伟达&Google最新《基于扩散的去噪生成建模:基础与应用》教程，182页ppt带你学习高保真图像生成

专知会员服务

94+阅读 · 2022年6月18日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【浙江大学ICLR2022】可微分提示—一种更加高效的预训练少样本微调方法

专知会员服务

32+阅读 · 2022年2月18日

BERT技术体系综述论文：40项分析探究BERT如何work

专知会员服务

140+阅读 · 2020年3月1日

一句话生成3D模型：AI扩散模型的突破，让建模师慌了

机器之心

2+阅读 · 2022年11月23日

英伟达「一句话生成3D模型」碾压谷歌：分辨率清晰8倍，速度快2倍，编辑文本还可直接修改

量子位

1+阅读 · 2022年11月22日

AI画画模型成本被打下来了！预训练成本直降85%，微调只需单张RTX 2070，这个国产开源项目又上新了

量子位

0+阅读 · 2022年11月9日

GPT-3组合DALL·E，60秒内搞定游戏设定和原型动画！网友看后：这游戏想玩

量子位

0+阅读 · 2022年8月6日

StyleGAN作者：提升扩散模型生成质量和效率的窍门！业界大佬纷纷点赞

CVer

0+阅读 · 2022年6月11日

这个AI爆火！输入1句话，生成1段视频！清华提出CogVideo：最大的文本生成视频模型

CVer

0+阅读 · 2022年6月8日

这个“1句话生成视频”AI爆火：支持中文输入，分辨率达到480×480，清华&智源出品

量子位

0+阅读 · 2022年6月3日

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

大数据文摘

1+阅读 · 2022年5月24日

OpenAI逆炼以文生图：参数缩水2/3性能却更强，还get局部编辑新技能｜可试玩

量子位

0+阅读 · 2021年12月23日

用扩散模型生成高保真度图像

TensorFlow

1+阅读 · 2021年8月17日

3.5 µm中红外超短脉冲掺铒ZBLAN光纤激光器关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向真实感绘制的光场低秩性及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于三维信息单元的高质量虚拟视点绘制技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

安全协议逆向与会话实例重构关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于稀疏表达的拷贝数变异检测算法研究及其在进化遗传学中的应用

国家自然科学基金

0+阅读 · 2013年12月31日

基于部分参考图像质量评估的二维矢量图形快速渲染技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向云计算的图像同态加密与高效检索关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

大规模定制服务系统的Petri网语义模型与关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

软件在线演化的关键技术与支撑工具研究

国家自然科学基金

0+阅读 · 2009年12月31日

服务质量要素驱动的空间信息服务组合执行技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

What is in a Text-to-Image Prompt: The Potential of Stable Diffusion in Visual Arts Education

Arxiv

0+阅读 · 2023年1月5日

Medical Diffusion: Denoising Diffusion Probabilistic Models for 3D Medical Image Generation

Arxiv

1+阅读 · 2023年1月3日

Semi-Structured Object Sequence Encoders

Arxiv

0+阅读 · 2023年1月3日

Semantic Encoder Guided Generative Adversarial Face Ultra-Resolution Network

Arxiv

0+阅读 · 2023年1月3日

Understanding Diffusion Models: A Unified Perspective

Arxiv

14+阅读 · 2022年8月25日

Controllable Data Generation by Deep Learning: A Review

Arxiv

15+阅读 · 2022年7月19日

A Survey on Data Augmentation for Text Classification

Arxiv

16+阅读 · 2021年7月7日

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Challenges in Building Intelligent Open-domain Dialog Systems

Arxiv

21+阅读 · 2019年5月13日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

VIP会员