创意有瓶颈吗？百度文心·一格：不存在，动动手指片刻生成艺术大作

2022 年 8 月 19 日 机器之心

机器之心原创

作者：杜伟

这次，百度文心跨模态大模型让你的创意「飞起来」！

在近年来的 AI 领域，随着 NLP 和 CV 的日益融合，多模态学习越来越受到学界和业界的重视，其中文本生成图像更是成为现象级研究方向。输入一段语言描述，AI 即能输出对应的图像，兼具速度与质量。

在这股以文生图风潮中，AI 底蕴深厚的国外大厂纷纷推出多模态文生图模型，比如 DALL-E 2、 GauGAN2 和 Disco Diffusion 等。这些 AI 模型生成的图像都给人留下了深刻的印象，在逼真度、趣味性、风格等方面各有特点。

DALL-E 2（左）和 Disco Diffusion（右）的不同画风。

国内 AI 巨头在中文多模态特别是文生图这一赛道也颇有建树，尤以百度基于知识增强的文心跨模态大模型语义理解技术为代表，其中的跨模态生成大模型 ERNIE-ViLG 可以根据用户输入的语言描述自动创作不同风格（水彩、粉笔画、卡通、油画、蜡笔画、儿童画）的图像。前段时间，百度数字人度晓晓更是创作出了引发热议的「无界」系列画作，被专业美院教授评价为「已经达到了本科美术生的基本要求」。

不过，百度并没有满足于此，想要在文生图领域更专、更快，让生成的图像打破风格的桎梏，同时更关注用户的创意需求。在今日成都举办的 2022 中国图象图形大会上，百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜 重磅推出了基于文心大模型的 AI 艺术和创意辅助平台——文心 · 一格，突出创意成为它的显著特征 。

百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜

作为业界首个 AI 艺术和创意辅助平台，文心 · 一格面向三类人群，包括 1）画师、设计师、艺术家等视觉内容创作者，2）媒体、作者等文字内容创作者和 3）大众用户。他们可以通过文心 · 一格智能生成多样化创意图片，并从中汲取创意灵感，打破创意瓶颈。

一格平台体验地址（点击阅读原文）：yige.baidu.com

不同于 DALL-E 2 和 Disco Diffusion 等有风格偏向性的 AI 作画工具， 一格则取多家之所长，在图画创作上具有更强的实用性和艺术性，支持插画、科幻、中国画、动漫风等十余种不同风格高清艺术画作的生成 ，既能生产恢弘绚丽的艺术画，也能创作充满创意脑洞的超写实图。

文心 · 一格，一语成画

一格文生图效果到底如何呢？输入语言描述「太空中不断延伸的环形轨道」，我们得到了如下震撼的太空图。可以看出，一格生成的图像具有极强的写实性，如果不告诉你这是出自 AI 之手，一定会有人认为是真实的太空场景。

当然， 写实性强只是一格文生图的一方面优势，它在生成写实图像的同时还兼顾了艺术风格 。依然用示例说话，输入语言描述「埃及金字塔」。以往的 AI 模型比较擅长生成风景图，但复现真实建筑则有相当难度，有些模型生成的图像偏艺术缺乏真实性。一格则在真实性与艺术性之间找到了很好的平衡。

接下来继续欣赏一格生成的另一些创意画作。想了解下传说中的「凤凰」长什么样子，交给一格，片刻之后就能生成恢弘绚丽的画面。

一格生成创意脑洞的超写实图也不在话下，比如「骑摩托的帅气熊猫」、「公园的湖面波光粼粼，倒映着美丽的建筑」。

所有这些， 用户要做的就是动动手指，输入语言描述，片刻之后就能生成艺术大作 。在创作过程中，一格还可以通过指定图像风格、艺术家等方式，针对同一个语言描述生成多样化的、具备不同风格特点的图像。

一番创作下来，我们可以用 16 个字来概括一格的主要特点： 突破想象、简单易用、快速成画、别具一格 。

突破想象：一格拥有非常丰富的创作库，可根据语义联想和概念组合，自由创作多种风格创意画作，既能生成恢弘绚丽的艺术画，也能生成创意脑洞的超写实图；
简单易用：一格使用门槛非常低，用户只需输入一句语言描述，一格就可创作出不同风格的艺术画作；
快速成画：用户输入语言描述后，一格可在片刻生成一幅高清创意画作；
别具一格：一格生成的每幅画作，都是独一无二的。

一格文生图过程

一格文生图的过程大致可以分为以下几个步骤。

首先，需要准备海量的图文对数据，数量不仅要多，质量还要好，这样可以让 一格在充足的数据中学习「语言描述」与「艺术画面」的关联 。不过，这种关联又是丰富且复杂的。

依然用示例来讲，假如是让生成一幅风景图，结果出来的是动物图，那就很糟糕了。还有就是，同一个事物有多种艺术风格，例如山峰在中国画中是壁立千仞，在油画中是威严庄重，在科幻设定图中或许已经被机械掏空，建立起了霓虹闪烁的未来都市等。经过海量的数据训练，一格学会了「语言描述」与「艺术画面」之间的关联。

在此基础上，用户输入一段语言描述（例如狗、油画），一格将调动以上学习到的知识和能力，以随机化的起点开始进行初步创作。不同于人类作画过程， 一格先是生成画面整体轮廓，然后经过数百轮的迭代，修正完善画面细节 。

对于过程中的每一轮迭代，一格都会仔细检查草稿与语言描述的一致性，目的就是让作品与输入的语言描述具有正确的关联。持续的修正使得整体构图不断明晰，模糊和噪声逐渐被精确的配色和轮廓代替，最终形成在审美上与人类经验与知识高度一致的成品。

一格创作过程中，语言描述是关键，因为用户输入的内容决定了其生成的内容，是作画灵感的根本来源，更是 AI 生成画作最关键的指引。一格从海量数据中学习到的知识，是灵感得以实现的基础，人类画作数千年的积累和沉淀为 AI 文生图提供了无限可能。

与此同时，AI 生成图像过程中的随机性，是灵感的补充，其可以学习一千种人类绘制山峰的方式，甚至创造出第一千零一种。

一格为艺术创作提供灵感

你可能会问，一格文生图有什么意义呢？

对于画师、设计师、艺术家等专业人士来说，他们总会遇到瓶颈期。虽然有很好的创作思路和构想，但却一时想不出好的或自己满意的绘画表现形式；或者艺术创作已经达到了相当的高度，寻求新的突破创新遇到困难；又或者创作出的东西总是达不到自己想要的效果，进行到一半就进行不下去了……

一格平台就是为此而生，它可以启发创意，让人们从 AI 生成的图像中重新汲取灵感。

再者作为媒体人、新闻编辑等工作人员，有时会因为找不到合适的配图而苦恼不已；还有就是大众用户，想体验创作带来的乐趣等。所有这些，一格平台也都能为你提供。

一格背后持续创新的跨模态大模型技术

我们知道，AI 图文创作往往需要解决三个关键挑战。首先在需求理解阶段，要准确理解需求，降低语言描述的门槛；其次在原创生成阶段，要精准刻画用户需求表意，支持多样化风格；最后在需求满足阶段，要对生成结果进行选择，保证和提升它们的质量。

然而，解决这些挑战并不容易。因此，一格平台在构建过程中得到了百度文心大模型提供的强大底层技术支持，尤其是不断改进的跨模态技术。

一方面 对文心知识增强跨模态理解大模型的创新，提出了基于多视角对比学习的 ERNIE-ViL 2.0 ，在预训练过程同时学习模态间和模态内的多种关联性，提升了「图像」和「文本」跨模态语义匹配效果，检索效果远超 ChineseCLIP、WenLan 等模型。

另一方面是全球规模最大中文跨模态生成模型 ERNIE-ViLG，它将「文生成图」和「图生成文」任务融合到同一个模型进行端到端学习，从而增强文本和图像的跨模态语义对齐。 此次 ERNIE-ViLG 文图生成算法迎来升级 ，通过渐进式扩散模型，生成空间由小及大、生成轮廓由粗到细，同时根据生成阶段自动选择最优生成网络，文本生成图像的效果取得进一步提升。

左为双向图像 - 文本生成的 ERNIE-ViLG 模型架构，右为渐进式扩散模型算法。

得益于文心跨模态大模型的一系列创新，百度将新技术实用化， 研发出了一套支持 AI 作画的文生图系统，提供了从用户需求理解到满足的全流程解决方案 。如下图所示，这套系统分为了两大核心组件，分别是文本输入阶段基于知识的 prompt 工程以及生成和输出阶段的跨模态大模型。

首先，对于基于知识的 Prompt 工程，理解用户需求并在此基础上丰富语义细节，降低用户输入描述成本。其次，基于扩散生成算法实现创意写实与恢弘构图的艺术画作生成。最后，基于跨模态匹配大模型进行生成画作的结果排序，自动选出语义与美观度最佳的画作。

基于文心大模型的文生图系统。

可以这样说，文心跨模态大模型实现了多视角对比学习、图文双向生成、渐进式扩散模型等多项技术创新，它们成就了今日的一格平台。

在不断修炼技术内功的同时，百度还致力于构建生态完整的开放社区，将大模型的能力释放给普通人。更具体地讲，百度为开发者、广大科技爱好者提供飞桨开源工具和文心大模型 API 服务能力，满足他们多样化的创意探索需求。

一方面，开发者可以在飞桨 PaddleHub 上直接调用相关的开源模型，享受极简易用的开发体验，并综合使用提供的 400 多个 AI 开源模型，组合开发有趣的 AI 应用，满足更多艺术从业者、开发者对图片生成场景的需求；另一方面，文图生成大模型 ERNIE-ViLG 为开发者提供了 API 体验调用的入口，登陆飞桨旸谷社区 API 体验专区即可体验其前沿技术能力，并能够灵活方便、高效快速将文图生成大模型能力集成到产品中。

从之前数字人度晓晓的作词编曲、写作绘画，到 AI 修复传世名画《富春山居图》，大模型赋能下的 AIGC 早已成为近来百度 AI 技术加速落地的着陆点。得益于持续创新的大模型技术，百度不断拓宽 AIGC 的适用范围，并努力发掘更多样化的内容生产方式。

此次，百度在为用户提供 ERNIE-ViLG API 体验智能作画的基础上更进一步，用一格这个面向创意内容的产品级综合文生图平台，为 AIGC 注入了更多活力和想象空间。在可预见的未来，一格生成的超写实与艺术画作，既有可能像度晓晓「无界」系列画作一样成为热卖的数字藏品，还可以用作契合电影、动漫主题的封面大作，更有望在游戏、元宇宙的多样化动态场景画面中找到用武之地。

总之，在新的内容创意和方式不断涌现的当下，AIGC 绝不应只停留在玩一玩、看一看的阶段，未来一定会在特定的应用场景中为生产者创造价值，既可以是艺术上的，也可以是物质上的。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多