这张骑马的宇航员图片是AI感知世界的一个里程碑

2022 年 4 月 27 日 大数据文摘

大数据文摘转载自数据派THU

翻译：陈超

校对：zrx

2021年初OpenAI的制图神经网络DALL-E一经发布，该项目便以新方法整合不同概念的类人化能力得到瞩目。DALL-E根据需求制作的图片是超现实且卡通化的，他们展现出了AI已经学会了世界是如何融合在一起的关键课程。DALL-E的鳄梨手扶椅具有鳄梨和椅子的关键特征；穿着tutu裙遛狗的胡萝卜腰上穿着tutu裙，手里拿着牵狗绳。

今天旧金山的实验室发布了DALL-E的升级版，DALL-E 2。它产出的图片质量更高，更容易使用，且不像原始版本-将会开放给大众（最终）。DALL-E 2可能最后甚至会延伸当前对于人工智能的定义，推动我们去检验这个概念并决定它到底意味着什么。

“从DALL-E到DALL-E 2的跨越让人想起GPT-2到GPT-3的跨越”，西雅图艾伦人工智能研究所（AI2）的Oren Etzioni这样说道。GPT-3也是有OpenAI所发的。

“泰迪熊像疯狂的科学家一样混合闪光的化学品，蒸汽朋克”/“一个庞大的家族带着帽子依偎在火炉旁的35毫米微距胶片摄影”

像DALL-E这样的图片生成模型在短短几年里实现了巨大突破。在2020年，AI2展示了可通过提示（例如“三个人在沙发上打游戏”）生成图片的神经网络。虽然图像是扭曲模糊的，但是仍可辨认。去年，中国科技巨头百度使用模型ERNIE-ViLG在原有DALL-E图片质量的基础上做了进一步优化。

DALL-E 2则发展得更快。它的作品可谓令人惊艳：它可以生成近乎照片真实感的生成宇航员骑马、泰迪熊科学家或者维米尔风格海獭图片。OpenAI提供的范例（见下图），以及上周公司给我展示的示例，都是经过精挑细选的。即便如此，图片品质也十分出色。

“你可以将该神经网络视为将超凡之美成为一种服务”OpenAI的联合创始人及首席科学家Ilya Sutskever如是说。“它一直都在制作一些让你叹为观止的东西”。

DALL-E 2更好的性能取决于它的完全重新设计。最初版本或多或少可以看成是GPT-3的延伸版。在许多方面，GPT-3就像是增强自动机：用几个单词或者句子启动，接下来它就可以自己工作，预测接下来序列中的几百个单词。DALL-E也是相似的工作模式，但是是作用于像素。当它收到一个文本提示之后，它通过预测猜测接下来最有可能出现的像素序列“完成”该文本，从而生成图像。

DALL-E 2并不是基于GPT-3。在引擎盖之下，他通过两阶段起作用。首先，它使用OpenAI的语言模型CLIP，该模型可以将文字描述与图片进行匹配，并翻译成文本提示，进入捕获图片匹配提示（根据CLIP）的关键特征的中介模式。第二，DALL-E 2运行一种叫做差分模型的神经网络并生成满足CLIP模型的图片。

差分模型基于已经被随机像素点完全扭曲的图片进行训练。他们已经学会了如何将这些图片转换成原始的形式。在DALL-E 2中，没有现存的图片。所以差分模型对随机像素点采样，在CLIP的指导下，从头开始将其转换为匹配文字提示的新图片。

差分模型使得DALL-E 2比DALL-E更快生成高分辨率图片。“这使得更实用且使用起来体验感更佳，”OpenAI的Aditya Ramesh这样说。

在样例当中，Ramesh和他的同事向我展示了刺猬使用计算器，柯基和熊猫下象棋，披着拿破仑外衣的猫手中拿着一片芝士的图片。我对此奇怪的角色阵容进行了评论。“费力想这些提示线索，一天很容易就过去了，”他说。

乔纳斯·维米尔的戴珍珠耳环的少女风海獭/约翰·奥杜邦风格的野外的朱鹭

DALL-E 2仍然会有马失前蹄的时候。例如，它可能会纠结与一条要求它结合两种或多种客体，每种有着两类或更多特质的提示，比如“红色方块在蓝色方块之上。”OpenAI认为这是因为CLIP并不总是能将属性和客体正确联系起来。

除了消除文本提示外，DALL-E 2还可以生成图片的变异。Ramesh拿出他在他家公寓外拍的街头艺术照片。AI迅速开始生成墙上有着不同绘画的场景的替代版本。每一幅新图片都能用于开启他们自己的变化序列。“这种反馈循环对设计者来说十分有用”，Ramesh说。

之前的用户，一个叫做Holly Herndon的艺术家，说她正使用DALL-E 2创造墙面尺寸的合成图。“我可以把巨幅的艺术作品一件件拼合起来，就像拼凑毯子，或者叙事旅行，”她说。“感觉像在新媒体中工作一样。”

用户注意

DALL-E 2看起来比以前的版本更像一个打磨的产品。这不是目的，Ramesh说。但是OpenAI确实计划在最初面向小部分信任用户发布后再向公众发布DALL-E 2，就像GPT-3一样。

（你可以在此处获取授权https://labs.openai.com/waitlist）

GPT-3可能会产生有病毒的文本。但是OpenAI说它已经采纳了来自GPT-3用户的反馈并训练一个更安全的版本，叫做InstructGPT。公司希望遵从于DALL-E 2相似的路径，也是由用户反馈塑造的。OpenAI将会鼓励最初用户破坏AI，并用于生成令人反感或有伤害性的图片。通过解决这些问题，OpenAI将会使DALL-E 2惠及更广泛的人群。

OpenAI也为DALL-E发布了用户政策，禁止要求AI生成冒犯性的图片-非暴力或色情-并且非政治性的图片。为了阻止深度伪造，用户将不被允许要求DALL-E生成真实人类的图片。

一碗看起来像羊毛织成的怪兽的汤/一只穿戴黑色贝雷帽和高领毛衣的柴犬

除了用户政策，OpenAI也从DALL-E 2的训练集中删掉了特定类型的图片，包括了那些表现图形暴力的。OpenAI也说他们会聘人专门鉴定平台上生成的每一张图片。

“我们的主要目标是在我们开始更广泛共享之前获得系统的一系列反馈，”OpenAI的Prafulla Dhariwal这样说。“我希望最终它可以使用，因此开发者可以在上面开发APP。”

创造性智力

多任务AI可以观察世界并处理跨多模态概念-像语言和视觉-这是迈向更普遍意义的智力的重要一步。DALL-E 2就是最好的例子之一。

但是当Etzioni对DALL-E2生成的图片而印象深刻之时，他对AI整体的进步到底意味着什么十分关心。“这种进步不会让我们更接近AGI，”他说。“我们已经知道AI可以显著更优地使用深度学习来解决简单任务。但是仍然是由人类来形成这些任务并给予深度学习的进程序列。”

对Mark Riedl，亚特拉大佐治亚理工学院的AI研究员，创造力是一种测量智力水平的好方法。不同于需要一个通过对话来迷惑人类的机器的图灵测试，Riedl的Lovelace2.0测试是根据他对创造事物的响应程度来判断机器的智力水平，例如“火星上的企鹅穿着太空服溜机器狗旁边是圣诞老人。”

DALL-E在这项测试上得分很好。但是智力是一个量表。当我们开发了越来越好的机器之后，我们的智力测试也需要更新。许多聊天机器人现在非常擅长模仿人类对话，并且在有限场景下通过图灵测试。但是他们仍然缺乏心智。

然而我们关于“创造”和“理解”的意义的想法也会改变，Riedl说。“这些术语可能定义有问题且有待辩论。”例如，一个蜜蜂理解黄色的重要性因为它要利用这条信息。“如果我们将理解定义为人类的理解，那么AI系统还差得远，”Riedl这样说。

“但是我也会质疑这些绘画生成系统有一些与人类重合的基本理解，”他说。“他们可以像人类一样在萝卜身上同样的位置画上tutu裙。”

像蜜蜂一样，DALL-E 2基于信息，生成符合人类预期的图片。像DALL-E的AI要求我们考虑这些问题以及这些术语到底意味着什么。

OpenAI很清楚自己现在处在什么位置。“我们的目标是创造一般智力，”Dhariwal说。“建立DALL-E 2这样联系视觉和语言的模型是我们教会机器人去按照人类的方式感知世界并最终开发AGI的宏伟目标里的关键一步。”

原文标题：

This horse-riding astronaut is a milestone in AI’s journey to make sense of the world

原文链接：

https://www.technologyreview.com/2022/04/06/1049061/dalle-openai-gpt3-ai-agi-multimodal-image-generation/

点「在看」的人都变好看了哦！

登录查看更多

相关内容

OpenAI

关注 27

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

【CVPR2022教程】微软《视觉语言预训练进展》教程，400+页ppt

专知会员服务

86+阅读 · 2022年6月23日

Nature子刊：尝试利用多模态基础模型迈向通用人工智能

专知会员服务

47+阅读 · 2022年6月16日

《人工智能是战争的未来（但并非是你想的那样）》，美国军事学院陆军网络研究所

专知会员服务

105+阅读 · 2022年5月5日

【图文实录】创新工场首席科学家、澜舟科技创始人周明：认知智能的进展和思考

专知会员服务

28+阅读 · 2022年3月24日