掀起一股中国风，最强中文AI作画大模型文心ERNIE-ViLG 2.0来了

2022 年 10 月 28 日 机器之心

机器之心专栏

机器之心编辑部

AI 作画在全世界越来越盛行。近日，百度发布知识增强跨模态大模型—— ERNIE-ViLG 2.0，在 AI 作画领域取得新突破。该模型采用基于知识增强算法的混合降噪专家建模，是全球首个知识增强的 AI 作画大模型，也是目前全球参数规模最大的 AI 作画大模型。

据了解，ERNIE-ViLG 2.0 在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型，取得了当前该领域的世界最好效果，在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势。

论文链接：https://arxiv.org/pdf/2210.15257.pdf
体验链接：https://wenxin.baidu.com/ernie-vilg

文心 ERNIE-ViLG 2.0: 最强中文 AI 作画大模型

AIGC (AI-Generated Content) 是继 UGC、PGC 之后，利用 AI 技术自动生成内容的新型生产方式。AI 作画作为 AIGC 重要方向之一，蕴含了极大的产业应用价值。相比于人类创作者，AI 作画展现出了创作成本低、速度快且易于批量化生产的巨大优势。

近一年来，该领域迅猛发展，国际科技巨头和初创企业争相涌入，国内也出现了众多 AI 作画产品，这些产品背后主要使用基于扩散生成算法的 DALL-E 2 和 Stable Diffusion 等国外模型。目前，这类基础模型在国内尚处空白，ERNIE-ViLG 2.0 是国内首个在该方向取得突破的工作。

当前 AI 作画技术在图像细节纹理的流畅度、清晰度、语义的可控性等方面还存在诸多问题。基于此，百度提出了基于知识增强的混合降噪专家（Mixture-of-Denoising-Experts，MoDE）建模的跨模态大模型 ERNIE-ViLG 2.0，在训练过程中，通过引入视觉知识和语言知识，提升模型跨模态语义理解能力与可控生成能力；在扩散降噪过程中，通过混合专家网络建模，增强模型建模能力，提升图像的生成质量。

我们先来欣赏下 ERNIE-ViLG 2.0 根据文本描述生成图像的一些示例：

ERNIE-ViLG 2.0 创作的图像示例：令人震撼的科幻插图杰作，神秘宇宙星辰背景中出现一只巨大的星球, 大场景，无比详细，明暗对比，32k

ERNIE-ViLG 2.0 创作的图像示例：凤凰周身火焰，多彩的祥云，明月，cg 感

ERNIE-ViLG 2.0 创作的图像示例：用沙尘暴制作的令人敬畏的龙，概念艺术，二次元

ERNIE-ViLG 2.0 创作的图像示例：srudio ghibli 风格，一个巨大的圆月、超现实的超自然村庄，抽象的生物形态建筑、白色，金色

ERNIE-ViLG 2.0 可应用于工业设计、动漫设计、游戏制作、摄影艺术等场景，激发设计者创作灵感，提升内容生产的效率。通过简单的描述，模型便可以在短短几十秒内生成设计图，极大地提升了设计效率、降低商业出图的门槛。

ERNIE-ViLG 2.0 助力视觉内容 AI 大生产

文心 ERNIE-ViLG 2.0 技术揭秘

ERNIE-ViLG 2.0 通过视觉、语言等多源知识指引扩散模型学习，强化文图生成扩散模型对于语义的精确理解，以提升生成图像的可控性和语义一致性。同时，ERNIE-ViLG 2.0 首次引入基于时间步的混合降噪专家模型来提升模型建模能力，让模型在不同的生成阶段选择不同的「降噪专家」网络，从而实现更加细致的降噪任务建模，进而提升生成图像的质量。

ERNIE-ViLG 2.0 架构图

基于语言和图像知识的知识增强算法。为提升生成图像的语义一致性和可控性，百度研究者提出将知识增强算法融入扩散模型学习，在扩散模型学习过程中，引入语言、视觉等多源知识指引模型更加关注文本和图像中的核心语义元素，同时针对训练数据噪声带来的训练图文样本语义偏差问题提出了文本语义补全的方法，对图文的语义一致性进行针对性学习，进而实现精准的细粒度语义控制。

混合降噪专家网络。针对模型建模能力不足，导致图像质量不够好的问题，百度研究者发现，扩散模型的降噪过程中不同阶段对降噪网络的能力要求不同，初始阶段模型需要从纯随机噪声中生成图像轮廓，结尾阶段对模型的要求变为对图像细节补全，传统方法使用同一网络建模整个降噪过程，模型需要同时满足不同阶段的建模需求。为此，百度研究者提出了针对不同阶段选择不同网络（降噪专家）进行建模的框架，有效地解决了不同阶段对模型能力要求不一致的问题，减少降噪任务的互相干扰，提升图像生成的质量。由于每个生成阶段只选取一个专家进行生成，实现了在不增加模型预测计算量的情况下对模型建模能力的扩充。

文心 ERNIE-ViLG 2.0 刷新 MS-COCO 评测集合最好效果

百度研究者在业内公开文本生成图像权威集合 MS-COCO 上评测了模型效果。相较于业内的其他工作，如 DALL-E 2、Imagen、Parti 等模型，ERNIE-ViLG 2.0 取得了当前最好效果，刷新了该任务的基准（ FID 指标代表了模型生成图像的逼真程度，数值越低代表模型越好）。

ERNIE-ViLG 2.0 在 MS-COCO 上的效果

除了客观自动评估指标，百度研究者还采用了人工评估方式，从图像保真度和图文相关性两个维度比较了 ERNIE-ViLG 2.0 与 DALL-E 2 以及 Stable Diffusion 的效果。评测人员采用多人盲评的方式，根据评价维度选择表现更好的一方。在图文相关性和图像保真度两个维度上，ERNIE-ViLG 2.0 相对于 DALL-E 2 和 Stable Diffusion 都有较大优势。

ERNIE-ViLG 2.0 人工评估结果

百度研究者还针对 ERNIE-ViLG 2.0 中的知识增强算法和混合降噪专家网络做了进一步效果分析。

其中，基于知识增强算法，ERNIE-ViLG 2.0 展现出对语义更精准的理解，生成结果更加可控，如以下示例中对颜色等物体属性实现精准控制。

ERNIE-ViLG 2.0 与 DALL-E 2 在属性控制方面对比示例

基于混合降噪专家网络，ERNIE-ViLG 2.0 在清晰度和纹理质量方面都取得了显著的提升，对比业界其他模型生成了更加逼真的图像。

ERNIE-ViLG 2.0 清晰度对比示例

文心 ERNIE-ViLG 2.0 更懂中国文化、图像创作能力更强

百度研究者构建了近 2 亿高质量中文图文数据对，通过基于知识增强的混合降噪专家建模，ERNIE-ViLG 2.0 具备了强大的中文语义理解能力。下面是 ERNIE-ViLG 2.0 结合了多种不同的风格重新绘制了中国文化相关的元素。

ERNIE-ViLG 2.0 在中国元素相关概念上创作的图像（仙鹤、京剧、青花瓷、建筑、剪纸、凤凰等中国元素）

在动漫创作方面，ERNIE-ViLG 2.0 也有显著的优势，与当下主流的 AI 绘画模型相比，展现出更加惊艳的效果，能够创作精美的动漫人物。

ERNIE-ViLG 2.0 创作动漫图像

生成创意图像是 AI 作画的重要应用之一，它能够帮助用户激发想象力、带来创作灵感。ERNIE-ViLG 2.0 能够根据文字描述，精准地生成现实世界没有的具有创造性的图像。

ERNIE-ViLG 2.0 生成的创意图像

文心 ERNIE-ViLG 2.0 开放服务

值得注意的是，早在今年 8 月，ERNIE-ViLG 2.0 模型通过 API 服务方式开放公测，一经上线，便受到了国内外广大开发者和爱好者广泛关注。其中，讨论度最高的是 ERNIE-ViLG 2.0 在中国元素和二次元相关的创作中，效果远超其他 AI 作画模型。有网友评价: 「最先进的 AI 动画生成技术在中国」。

除此之外，ERNIE-ViLG 2.0 展现出来的图像质量、美感度也获得了国外网友比较高的评价。

开发者和科技爱好者可以通过 ERNIE-ViLG 2.0 的 API 调用入口直接体验该模型的技术效果，并灵活方便地集成到产品中。同时，基于 ERNIE-ViLG 2.0 大模型，百度也推出了 AI 作画产品—— AI 艺术与创意辅助平台：文心一格（yige.baidu.com），以满足更广泛人群在 AI 作画方面的需求。

结语

生成式 AI 技术是最近的热门话题，伴随着大量应用的落地，AI 生成文字、图片、视频等内容也渐渐走入了人们的日常。ERNIE-ViLG 2.0 等 AI 作画大模型的推出，将进一步加速 AI 辅助视觉内容创作与生产时代的来临。

作为百度文心大模型「家族」重要一员，ERNIE-ViLG 2.0 也代表着百度在 AIGC 领域迈出坚实步伐，从技术自主创新和加速产业应用方面持续推动中国 AI 发展。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多