冰墩墩设计师都在玩的AI创作，这次大模型出圈了！

会员服务 ·

冰墩墩设计师都在玩的AI创作，这次大模型出圈了！

2022 年 2 月 15 日 量子位

梦晨发自凹非寺
量子位 | 公众号 QbitAI

这是疫情之下的第三个元宵节了。

或许你已经结束假期回到工作的城市，又或许连续几年没能回家了。在防疫措施下，这个节日未免显得冷清。

不过热闹并没有消失，只是转移到了网络上。

中国青年报联合百度发起的#我们一起画月亮#在微博火了，连冰墩墩设计团队负责人曹雪都来体验。

同属奥运圈的国际奥委会成员小萨马兰奇、短道速滑运动员韩天宇也来参与。

还有演艺界的王一博、魏大勋、杨迪、孔雪儿、哈妮克孜，以及知名博主Papi酱……

乍看以为是一个常见的H5刷屏，仔细一看，竟然是AI大模型的首次破圈，让广大普通用户都体验了一下AI创作艺术。

具体来说，只需告诉AI想去哪里看月亮，就能得到AI为你创作的一张元宵月景，另外配诗一首。

比如小萨马兰奇想看他家乡西班牙的月，AI就画出一副南欧风景，画风也是西式油画。

到了韩天宇，他想看北京的月，AI画风也切换得更像中式山水。

要注意这画、这诗都是AI全新创作的，在网上不会有一模一样的。

画作中细节丰富的月亮也不是一般月亮，原型是“嫦娥一号”探月卫星拍摄数据制作成的中国第一张全月影像。

AI画作中的月亮正是由这张全月影像图变化而来，更具纪念意义。

如果输入自己家乡的名字，就可以看到AI对你那里有什么印象。

或者让AI画一份你目前所在地的月景，还可以填上收件人生成元宵贺卡分享给远方的亲人，用科技的方式体验一把“千里共婵娟”。

不按常理出牌的话，还可以来扫码试试火星或冬奥会等非常规场景，考验一下AI脑洞有多大。

只根据寥寥几个字画出一张细节丰富的绘画作品，对人来说都非易事，对AI来说更是如此。

既要让图像与文字描述相符又要保证图像本身的质量，尤其是用户可以随意输入文本的这种，很多情况AI都是第一次见，怎么就知道要往上画什么呢？

AI如何决定画什么？

AI根据文字画出图像这种能力一般叫做跨模态生成。

模态，指的是文本、图像、视频等不同的信息表现形式。

跨模态，则是把不同类型的信息结合起来。比如图像搭配上文本组成一对，让AI去学习它们之间的关系。

简单来说，AI会把文本以字或词为单位拆开，编码成向量组成的序列。图像经过计算也可以编码成向量序列。

接下来AI要学习两件事：

第一，根据文本序列预测出图像序列的内容。

第二，根据预测出的图像序列再重建成图像。

通过这个过程，AI可以理解到特定文本和图像之间的对应关系。

基础一些的，像颜色、形状的文字描述及对应的图像特征。

高阶一点的，还可以是更综合的概念，比如当文字中的埃及，AI就知道标志性景观有金字塔。

具体到这次元宵赏月活动，AI技术的提供方是百度，用到的是文心大模型。

大模型的“大”一方面在训练数据量，跨模态能力上，百度用了1.45亿组高质量中文图文对做训练。另一方面，跨模态部分的参数规模也有100亿。

除了练得多、规模大，文心大模型的跨模态能力与同类AI模型相比还有一项创新之处。

首创的跨模态统一建模，让AI同时学习文本到图像和图像到文本两个方向的任务，两个模块之间学到的参数共享。

这样做的好处，可以用人类学外语来理解。

相当于先练一遍中译英，再倒过来练一遍英译中，对词汇、语法之间对应关系的理解就更深了。

其他的技术创新还有不少，比如端到端的训练流程能同时加强编码器和解码器性能等，这里不再一一详述。

有了种种新技术加持，文心跨模态大模型在同类模型对比中取得了领先成绩，特别是在零样本任务大幅领先国内外。

△FID越低代表生成图像的数据分布越接近真实图像

当然，画好不好看不能光看数据质量，还得符合人类审美。

在人类评估中，文心跨模态大模型在图像清晰度、纹理品质、与文本的相关性三个指标也取得领先。

看分数指标不直观的话，不如再看一些实例。

登录文心大模型官网，便能在线体验它的跨模态生成能力。

根据同样一段文字描述，文心跨模态大模型可以切换不同画风。

把白话描述换成更抽象的古诗，AI也能准确理解并配上画面。

AI诗词作画这项能力也在文心大模型官网上开放了体验，地址可以在文末获取。

倒过来，根据图像也可以生成文本描述。

△来自论文arxiv.org/abs/2112.15283

实际上，跨模态大模型只是百度文心大模型中的一个组成部分。

目前，文心大模型系列除了跨模态，还包含NLP（自然语言理解）大模型、CV（计算机视觉）大模型，既有基础通用的大模型，也包含面向医疗、金融等重点领域、重点任务的大模型，以及丰富的工具与开发平台。

文心大模型整体上与其他家大模型相比有个核心特色——知识增强。

除了海量训练数据外，文心大模型还从拥有5500亿事实的百度知识图谱中持续学习。

在知识的指导下，AI能够更快地学习到海量数据中蕴含的规律，表现出来的也就更加智能，特别是在零样本能力上领先于纯大数据训练出来的模型。

一方面能节省人工标注数据的昂贵成本，另一方面更是为本身就缺少足够数据的场景带来更大想象空间。

在AI内容生成（AIGC）方面，也很考验大模型的零样本能力。

究其原因，AI生成的内容是要直接呈现给消费者，或AI直接与人类互动，人就是最大的不确定性。

这次的元宵节AI作画活动便是一个好例子，生成的画作和诗词广受好评，经受住了网友们的考验。

除了跨模态大模型外，文心NLP大模型也有出色的零样本生成能力。

无需标注任何样本，便可以根据用户指定的体裁、情感、长度、主题、关键词等属性，生成不同类型的文本。

这一点也可以在文心大模型官网上动手体验。

文心大模型家族里各个成员的理解和生成能力，逐步可胜任文字、图像、视频在内的互联网用户消费的主要内容的规模化生产。

一个AI生成内容（AIGC）的新时代，即将开启。

以文生图只是AIGC的冰山一角

如今互联网上的每个人每天都在消费大量的内容。

从你正在阅读的这篇文章，到微博，到直播、短视频、游戏，形式越来越多样的内容都抢占用户的时间和注意力。

微博靠降低用户用文字表达自己的门槛而流行，短视频让更多普通人靠手机就能分享自己的生活而火爆。

不断提升内容多样性和交互性，持续降低制作门槛、提升内容生产效率是每种内容都在追求的发展方向。

于是，AI协助下的内容生产逐渐走向台面。

手机拍照用上各种AI对焦、修图，各大网络平台纷纷实装文章一键转视频、AI自动朗读文字等功能。

除了摆在台面上的数字消费类内容，广义的生成式AI也在更多看不见的地方发挥着价值。

比如去年程序员们津津乐道的GitHub Copliot，AI通过理解编程语言与自然语言间的关系可以辅助人类程序员写代码、写注释。

文心大模型的文档理解能力，在保险行业可以辅助业务员处理一份合同的时间缩短到1分钟，业务效率提升30倍。

像文心大模型这样的以文生图能力，甚至可以用在线下实物产品的生产上。

比如AI辅助人类设计师做服装设计和工业设计，节省大量重复劳动时间、降低生产成本。

创意设计，以前被认为是人类专属的高难度领域，AI难以涉足。

AI在图像上的能力很长时间以来局限于分类、识别、编辑修改这些任务。

但随着技术发展，AI已经开始渗透到艺术领域，能够进行独立的创意、生成画作，比大家预想的速度要快得多。

有的AI画作在拍卖行以天价成交，有的AI画作被收录进纽约现代艺术馆。

这种形势下，人工智能顶级会议NeurIPS连续几年开设的“创意与设计工作坊”也办得有声有色。

但要说AIGC的集大成者，还要重点提一下最近火热的数字人。

数字人经常要与人类交流互动，更加考验AI在视觉、语音、文字等模态上全方位的能力。

与人类相比，数字人还有个优势是不用休息。

火热进行中的冰雪赛事上就有一位AI手语主播，24小时不间断得为2780万听障人士提供手语服务。

百度APP代言人龚俊的数字人，可以作为语音搜索助理出现在用户手机里，让粉丝拥有面对面与偶像实时对话的沟通体验，增加了明星的价值。

此外虚拟员工、虚拟客服等形式的数字人也都展现了各自的产业价值，走进互娱、金融、政务、零售等更多行业。

再说回到互联网，下一代互联网无论是叫元宇宙还是Web3.0，对内容的数量、形式和交互性都提出了更高的要求，面临更大的数字内容供给缺口。

这些缺口正等着以AIGC为代表的技术去填补。

最后，如果你现在就想提前感受一下AIGC时代，今天就是个好机会。

扫码进入活动页面，让AI为你创作一幅月景美图，还可以送给亲朋好友，作为别具一格的元宵节祝福哦～

或者点击阅读原文，到文心大模型官网体验更多精彩能力。

登录查看更多

相关内容

大模型

关注 215

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

【图文实录】创新工场首席科学家、澜舟科技创始人周明：认知智能的进展和思考

专知会员服务

28+阅读 · 2022年3月24日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

2022北京冬奥！领略冬奥上的硬科技【中国科技创新之路——科技冬奥】

专知会员服务

29+阅读 · 2022年2月16日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

神经文本生成可用么？斯坦福Abigail博士论文《开放式文本和对话的神经生成》，192页pdf

专知会员服务

26+阅读 · 2021年9月1日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

文澜：超大规模多模态预训练模型！

专知会员服务

66+阅读 · 2021年3月21日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

无痕 PS、读得懂文字，OpenAI 的二代 DALL·E 惊艳亮相！

CSDN

0+阅读 · 2022年4月14日

多模态新王登基！OpenAI发布DALL·E 2，生成图像「指哪打哪」

新智元

0+阅读 · 2022年4月10日

DALL·E这波超进化，画质艺术感双飞升，还学会了无痕P图

量子位

0+阅读 · 2022年4月7日

OpenAI的DALL·E迎来升级，不止文本生成图像，还可二次创作

机器之心

1+阅读 · 2022年4月7日

AI手语主播通过朱广权魔鬼面试，残影级手速无惧贯口，今已正式上岗助力冰雪盛会

量子位

0+阅读 · 2022年2月4日

虚拟人春节搞事情！先在央视《对话》，又跟李玉刚组团除夕出道

量子位

0+阅读 · 2022年1月31日

路过人间遇见你！三次元虚拟小姐姐翻唱《华夏》除夕贺新春

新智元

0+阅读 · 2022年1月31日

Meta AI发布图音文大一统模型Data2vec，4天在GitHub揽1.5万星

量子位

0+阅读 · 2022年1月29日

哪些产品的设计让你觉得惊艳？

ZEALER订阅号

1+阅读 · 2022年1月23日

讲堂 | 谭旭：AI音乐，技术与艺术的碰撞

微软研究院AI头条

0+阅读 · 2021年7月20日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

非受控场景下融合结构与纹理信息的人脸人耳多模态识别

国家自然科学基金

0+阅读 · 2014年12月31日

面向创作的音乐与舞蹈的关联计算模型

国家自然科学基金

0+阅读 · 2012年12月31日

基于社会标签的图像标注与标签推荐

国家自然科学基金

0+阅读 · 2012年12月31日

超大规模集成电路仿真验证中的模型降阶及稀疏表示

国家自然科学基金

0+阅读 · 2012年12月31日

蛋白质-配体绑定区域预测的特征抽取及学习算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于区域特性感知的自适应码率控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

小鼠db/db糖尿病模型中心肌线粒体HADHB的酪氨酸硝基化修饰

国家自然科学基金

0+阅读 · 2009年12月31日

磷酸化修饰介导的蛋白质相互作用研究

国家自然科学基金

0+阅读 · 2009年12月31日

选择性注意驱动的图像语义理解方法与计算模型研究

国家自然科学基金

0+阅读 · 2008年12月31日

Multi-Auxiliary Augmented Collaborative Variational Auto-encoder for Tag Recommendation

Arxiv

0+阅读 · 2022年4月20日

Modality-Balanced Embedding for Video Retrieval

Arxiv

0+阅读 · 2022年4月18日

Simple but Effective: CLIP Embeddings for Embodied AI

Arxiv

1+阅读 · 2022年4月15日

Invariant Information Bottleneck for Domain Generalization

Arxiv

15+阅读 · 2021年12月10日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Towards a Human-like Open-Domain Chatbot

Arxiv

14+阅读 · 2020年1月27日

Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network

Arxiv

15+阅读 · 2019年5月28日

Deep Learning on Graphs: A Survey

Arxiv

53+阅读 · 2018年12月11日

Diverse Image-to-Image Translation via Disentangled Representations

Arxiv

13+阅读 · 2018年8月2日

VIP会员