成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
观点丨DALL-E 2、AI研究的未来以及OpenAI的商业前景
2022 年 4 月 19 日
大数据文摘
大数据文摘授权转载自数据实战派
作者:Ben Dickson
译者:青苹果
因为DALL-E 2,OpenAI最近再次占领新闻头版。
这种ML模型,可以从文本描述生成令人惊叹的图像。DALL-E 2是以其前身DALL-E的成功为基础,并得益于先进的深度学习技术,极大提高了输出图像的质量和分辨率。
在DALL-E 2发布的同时,OpenAI的工程师和首席执行官 Sam Altman 也在社交媒体上发起了一场活动,他在Twitter上分享了由生成机器学习模型创建的精彩照片。
当然,DALL-E 2也揭示了AI研究社区在利用深度学习的力量和解决其局限性等方面所取得的进展。除此之外,它还提供了生成式深度学习模型供个人使用的一些展望,比如如何最实现新的创意应用程序等。
但与此同时,它的问世也提醒着我们,AI研究中仍存留着一些障碍和亟待解决的争议。
DALL-E 2的惊人之处
DALL-E 2已经发布了详细的论文和交互式博客文章,详尽展示了ML模型的工作原理。另外,还附加了概述该技术功能和局限性的视频讲解。
根据这些内容我们都能知道,DALL-E 2不仅是一种“生成模型”,它可以创建复杂的输出,而不是对输入数据执行预测或分类任务。简单来说,只要你为DALL-E 2提供了一段文本描述,那么它便会直接生成符合该描述的图像。
毋庸置疑,生成模型作为热门的研究领域,随着2014年生成式对抗网络(GAN, Generative Adversarial Networks)而备受关注。近年来,该领域取得了巨大的进步,而且目前生成模型已广泛流行于各种各样的任务,包括人脸生成、换脸技术、声音合成等。
然而,DALL-E 2与其他生成模型的不同之处在于,它可以在创建的图像中保持语义的一致性。
例如,以下图片(源自DALL-E 2博客文章)是由描述“宇航员骑马”生成的。其中一份描述以“铅笔画”结尾,另一份以“写实风格”收官。
该模型在绘制坐在马背上的宇航员时,将其手放在前面,保持了一致性。当然,这种一致性也在OpenAI分享的大多数例子中有所体现。
以下示例(也来自OpenAI的网站)展示了DALL-E 2的另一个特性,即生成输入图像的变体。这里,你不是向DALL-E 2提供带有文本描述,而是提供图像,它会尝试生成相同图像的其他形式。而且,DALL-E可以做到保持图片中各个元素之间的关系,包括女孩,笔记本电脑,耳机,猫,背景中的城市灯光以及挂有月亮和云彩的夜空。
其他例子也有力地表明,DALL-E 2似乎能够理解深度和维度的概念,这对于处理2D图像的算法而言,无疑是个巨大的挑战。
即使OpenAI网站的例子是精心挑选的,它们也令人印象深刻。Twitter上分享的例子显示,DALL-E 2似乎已经找到了一种方法来表示和再现图像中出现的元素之间的关系
DALL-E 2背后的学问
DALL-E 2利用了对比学习图像预训练(CLIP, Contrastive Learning-Image Pre-training)和扩散(diffusion)模型,这是过去几年创建的两种先进的深度学习技术。但究其核心,它与所有其他深度神经网络具有相同的概念:表示学习。
考虑一个图像分类模型。神经网络将像素颜色转换成一组表示其特征的数字。此向量有时也被称为输入的“嵌入”。然后将这些特征映射到输出层,该层包含模型应检测的每类图像的概率分数。在训练期间,神经网络会试图学习区分类的最佳特征表示。
理想情况下,ML模型应该能够学习在不同光照条件、角度和背景环境下保持一致的潜在特征。
但正如我们经常看到的那样,深度学习模型经常学习错误的表征。例如,神经网络可能认为绿色像素是“绵羊”类的特征,因为它在训练中看到的所有绵养的图像都包含大量的青草。另一个以夜间拍摄的蝙蝠照片为训练数据的模型,可能会认为黑暗才是所有蝙蝠照片的重要特征,并对白天拍摄的蝙蝠照片产生错误分类。其他模型可能会对位于图像中心并放置在某种类型背景前面的对象变得敏感。
学习错误的表征是神经网络脆弱、对环境变化敏感,并且在训练数据之外泛化能力差的部分原因。这也是为什么针对一个应用程序训练的神经网络需要针对其他应用程序进行微调的原因——神经网络的最后层通常具有高度特定于某些任务的特征,而导致无法推广到其他应用程序。
理论上,你可以创建一个规模庞大的训练数据集,其中包含神经网络应该能够处理的各种数据变体。但是创建和标记这样的数据集需要大量的人力资源,而且几乎是不可能实现的。
这就是CLIP所要解决的问题。CLIP在图像及其标题上并行训练两个神经网络。具体来说,其中一个网络学习图像中的视觉表征,另一个学习相应地文本表征。在训练期间,两个网络尝试不断调整其参数,以便于相似的图像和描述能够产生相似的嵌入。
CLIP的主要优势之一是,它不需要为特定应用程序标记其训练数据。它可以在网络中海量的图像和松散的描述中进行训练。
此外,没有了经典类别的严格边界,CLIP可以学习更灵活的表示,并将其推广到各种各样的任务之中。例如,如果一幅图片被描述为“一个男孩抱着一只小狗”,而另一幅图片被描述为“一个男孩骑着一匹小马”,那么模型将能够更准确地诠释出“男孩”是什么,以及它与图像中其他元素的关系。
CLIP已被证明对于零样本学习(zero-shot learning)和少样本学习(few-shot learning)非常有用,其中一种ML模型可以当场演示,执行其从未接受过训练的任务。
在DALL-E 2中使用的另一种ML技术是“扩散”,这是一种生成模型,通过逐渐对训练示例加噪和去噪来学习创建图像。扩散模型类似于自动编码器,可以将输入数据转换为嵌入表示,然后从嵌入信息中再现原始数据。
DALL-E首先在图像和标题上训练CLIP模型,然后使用CLIP模型训练扩散模型。基本上,扩散模型使用CLIP模型为文本提示及其相应的图像生成嵌入,随后再尝试生成与文本对应的图像。
争议所在
目前,DALL-E 2仅对已注册候补名单的有限数量用户开放。
自GPT-2发布以来,OpenAI一直不愿向公众发布其AI模型。可以说,GPT-3是其最前沿的语言模型,但其局限却始终未能打破,只能通过API接口使用,无法访问模型的实际代码和参数。
OpenAI不向公众发布模型的政策并未得到AI社区的好评,甚至还引发了该领域一些知名人士的批评。
下图便是特斯拉AI总监Andrej Karpathy 的调侃:AI API的调用已经从可以在你的电脑运行变成了你需要在推特上让作者帮你运行。
与此同时,DALL-E 2长期以来对通用人工智能(AGI, Artificial General Intelligence)首选方法的分歧也浮出水面。
OpenAI的最新创新无疑已经证明,通过正确的架构和归纳偏见,你仍然可以从神经网络中挤出更多的知识。
纯深度学习方法的支持者抓住这个机会,以对其批评者投向了轻视的目光,包括认知科学家Gary Marcus最近发表的一篇题为 Deep Learning is Hitting a Wall的文章。Marcus支持一种将神经网络与符号系统结合起来的混合方法。
根据OpenAI团队分享的示例,DALL-E 2似乎展示了深度学习系统中长期以来一直缺失的某种常识能力。但这一常识和语义稳定性的深度,以及DALL-E 2及其后继版本将如何处理更复杂的概念,如组合性,仍有待观察。
DALL-E 2论文提到了该模型在生成文本和复杂场景方面的一些局限性。在回应推文时,Marcus曾指出,DALL-E 2论文实际上证明了他在论文和论文中提出的一些观点。
一些科学家指出,尽管DALL-E 2的结果令人着迷,但AI的一些关键挑战仍未解决。
圣达菲研究所(the Santa Fe Institute)复杂性研究教授、《人工智能:人类思考的指南》(Artificial Intelligence: A Guide For Thinking Humans)一书的作者梅拉妮·米歇尔(Melanie Mitchell)在Twitter上列出了一些重要问题。
其中,Mitchell提到了邦加德问题(Bongard problems),这是一组对概念理解的测试挑战,如同一性、邻接性、数量性、凹凸性和封闭性/开放性等等。
Mitchell在推特上写道:“由于我们拥有基本概念的核心知识,以及灵活抽象和类比的能力,人类是能够解决这些视觉难题的。”“如果创建出这样一个AI系统,我会相信该领域正在朝着人类智能水平的方向取得真正的进展。在那之前,我会由衷敬佩ML和大数据的这些令人震撼的产品,而不会将其再误认为是向通用智能的迈进。”
DALL-E 2的商业案例
OpenAI从非营利转向“有限盈利”(capped profit)结构以来,一直在努力寻找科研和产品开发之间的平衡点。该公司与微软的战略合作伙伴关系为其部分技术的变现,包括GPT-3和Codex在内,提供了坚实的渠道。
在一篇博客文章中,Altman建议在夏季推出DALL-E 2产品。许多分析师已经在为DALL-E 2应用提出了建议,比如为文章创建图形和对图像进行基本编辑。DALL-E 2将使更多的人能够表达自己的创造力,而无需再借助工具的特殊技能。
Altman表示,AI的进步正把我们带向“一个崭新的世界,在这个世界里,我们做事的极限取决于创意点,而非特定的技能。”
随着越来越多的用户对DALL-E进行改进升级,相信一批有趣的应用程序也会不断的涌现出来。例如,当用户开始使用GPT-3生成软件源代码时,Copilot和Codex的想法便会应运而生。
如果OpenAI像GPT-3那样发布付费API服务,那么更多地人将会选择用DALL-E 2构建应用程序,或者将该技术集成到现有的应用程序中。但与GPT-3的情况一样,围绕潜在的DALL-E 2产品建立商业模型将会形成独特的挑战。这在很大程度上取决于训练和运行DALL-E 2的成本,具体细节尚未公布。
而且,作为GPT-3技术的独家许可持有者,微软将成为基于DALL-E 2构建创新的主要赢家。原因在于,它可以用更高效且低成本的方式完成这项工作。
与GPT-3一样,DALL-E 2也在给人们敲响了警钟,随着AI社区继续倾向于在更大的训练数据集上创建更大规模的神经网络,那么不可避免地,话语权将继续被少数的资金雄厚的公司所掌控,毕竟这些公司拥有AI研究所需的财政和技术资源。
点「在看」的人都变好看了哦!
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
OpenAI
关注
27
OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。
商汤《企业级AI数字人数字经济发展“新动能”》阐述AI数字人未来十大展望
专知会员服务
72+阅读 · 2022年5月5日
人工智能(AI)在无人机领域应用报告,60页pdf
专知会员服务
209+阅读 · 2022年4月1日
【ICLR 2022】MIT论文解读:谈到人工智能,我们可以抛弃数据集吗?基于ML创建合成数据,Generative Models As A Data Source For Multiview Representation Learning
专知会员服务
40+阅读 · 2022年3月15日
重磅!80+位作者发布272页pdf《预测: 理论与实践》论文,百科全书式概述预测领域体系方法与实践
专知会员服务
207+阅读 · 2022年3月14日
AI换脸、合成语音大爆发!清华《深度合成十大趋势报告(2022)》发布
专知会员服务
43+阅读 · 2022年3月1日
元宇宙如何用AI?韩国学者发布最新《人工智能元宇宙》综述论文,涵盖170篇文献阐述人工智能在元宇宙的六大技术与四类重点应用
专知会员服务
143+阅读 · 2022年2月28日
【2020新书】《图核方法最新进展与未来挑战》,151页pdf
专知会员服务
65+阅读 · 2020年11月15日
最新《生成式对抗网络GAN时空数据应用》综述论文,28pdf
专知会员服务
69+阅读 · 2020年8月21日
【经典书】人工智能在21世纪,1020pdf
专知会员服务
42+阅读 · 2020年8月2日
生成式对抗网络(GANs)最新2020综述,41页pdf阐述GAN训练、 挑战、解决方案和未来方向
专知会员服务
195+阅读 · 2020年5月14日
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
新智元
0+阅读 · 2022年4月10日
OpenAI发布DALL-E 2,文字生成图像工具新的“天花板”?
大数据文摘
1+阅读 · 2022年4月8日
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
机器之心
1+阅读 · 2022年4月7日
DeepMind的AI能指导人类的直觉吗?
AI前线
0+阅读 · 2022年3月21日
元宇宙知识 | 如何在元宇宙中应用众多GAN模型???
专知
1+阅读 · 2022年1月29日
多模态AI崛起,2022年人工智能5大发展趋势
CSDN
2+阅读 · 2022年1月20日
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
机器之心
1+阅读 · 2022年1月12日
年末回顾:2021年 AI 领域十大研究趋势及必读论文
夕小瑶的卖萌屋
0+阅读 · 2021年12月31日
比AI视频换脸还可怕!DeepMind新AI可生成逼真视频
智东西
10+阅读 · 2019年7月23日
生成对抗网络的研究进展与趋势
中国计算机学会
35+阅读 · 2018年11月14日
离子液体@钯核壳纳米材料的可控合成及其一步氧化酯化反应催化性能评估
国家自然科学基金
0+阅读 · 2015年12月31日
基于深度学习的四元数小波彩色图像质量评价及其应用
国家自然科学基金
0+阅读 · 2014年12月31日
条件模型的计量经济学方法探讨及应用
国家自然科学基金
1+阅读 · 2013年12月31日
视觉注意模型及其在显著目标检测中的应用研究
国家自然科学基金
3+阅读 · 2013年12月31日
基于深度与图像信息融合的场景理解及应用
国家自然科学基金
0+阅读 · 2012年12月31日
半极性面GaN基偏振光LED外延技术及性能研究
国家自然科学基金
0+阅读 · 2012年12月31日
通过社会化媒体挖掘用户兴趣的方法及应用研究
国家自然科学基金
0+阅读 · 2012年12月31日
厘米级BiFeO3单晶的合成及其高温铁电相转变研究
国家自然科学基金
0+阅读 · 2012年12月31日
闪烁光纤屏光锥耦合的热中子探测与成像应用基础研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于认知语境的文本情感计算及其应用
国家自然科学基金
1+阅读 · 2009年12月31日
Domain Transformer: Predicting Samples of Unseen, Future Domains
Arxiv
0+阅读 · 2022年6月10日
A taxonomy of explanations to support Explainability-by-Design
Arxiv
0+阅读 · 2022年6月9日
Scaleformer: Iterative Multi-scale Refining Transformers for Time Series Forecasting
Arxiv
0+阅读 · 2022年6月8日
Structured Context Transformer for Generic Event Boundary Detection
Arxiv
0+阅读 · 2022年6月7日
Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with Learned Morph Maps
Arxiv
0+阅读 · 2022年6月6日
Natural Language Descriptions of Deep Visual Features
Arxiv
12+阅读 · 2022年1月26日
VideoDG: Generalizing Temporal Relations in Videos to Novel Domains
Arxiv
14+阅读 · 2021年9月17日
Domain Generalization using Causal Matching
Arxiv
12+阅读 · 2021年6月29日
GAN Inversion: A Survey
Arxiv
19+阅读 · 2021年1月14日
Data Augmentation using Pre-trained Transformer Models
Arxiv
15+阅读 · 2020年3月4日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
OpenAI
生成模型
深度学习
神经网络
生成式对抗网络
ML
相关VIP内容
商汤《企业级AI数字人数字经济发展“新动能”》阐述AI数字人未来十大展望
专知会员服务
72+阅读 · 2022年5月5日
人工智能(AI)在无人机领域应用报告,60页pdf
专知会员服务
209+阅读 · 2022年4月1日
【ICLR 2022】MIT论文解读:谈到人工智能,我们可以抛弃数据集吗?基于ML创建合成数据,Generative Models As A Data Source For Multiview Representation Learning
专知会员服务
40+阅读 · 2022年3月15日
重磅!80+位作者发布272页pdf《预测: 理论与实践》论文,百科全书式概述预测领域体系方法与实践
专知会员服务
207+阅读 · 2022年3月14日
AI换脸、合成语音大爆发!清华《深度合成十大趋势报告(2022)》发布
专知会员服务
43+阅读 · 2022年3月1日
元宇宙如何用AI?韩国学者发布最新《人工智能元宇宙》综述论文,涵盖170篇文献阐述人工智能在元宇宙的六大技术与四类重点应用
专知会员服务
143+阅读 · 2022年2月28日
【2020新书】《图核方法最新进展与未来挑战》,151页pdf
专知会员服务
65+阅读 · 2020年11月15日
最新《生成式对抗网络GAN时空数据应用》综述论文,28pdf
专知会员服务
69+阅读 · 2020年8月21日
【经典书】人工智能在21世纪,1020pdf
专知会员服务
42+阅读 · 2020年8月2日
生成式对抗网络(GANs)最新2020综述,41页pdf阐述GAN训练、 挑战、解决方案和未来方向
专知会员服务
195+阅读 · 2020年5月14日
热门VIP内容
开通专知VIP会员 享更多权益服务
《大型语言模型增强电子战》最新21页slides
军事系统互操作性《国防应用程序接口 (API) 技术指南》美国防部76页
机器人战争:未来冲突
《用于边缘云异常检测的机器学习》博士论文
相关资讯
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
新智元
0+阅读 · 2022年4月10日
OpenAI发布DALL-E 2,文字生成图像工具新的“天花板”?
大数据文摘
1+阅读 · 2022年4月8日
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
机器之心
1+阅读 · 2022年4月7日
DeepMind的AI能指导人类的直觉吗?
AI前线
0+阅读 · 2022年3月21日
元宇宙知识 | 如何在元宇宙中应用众多GAN模型???
专知
1+阅读 · 2022年1月29日
多模态AI崛起,2022年人工智能5大发展趋势
CSDN
2+阅读 · 2022年1月20日
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
机器之心
1+阅读 · 2022年1月12日
年末回顾:2021年 AI 领域十大研究趋势及必读论文
夕小瑶的卖萌屋
0+阅读 · 2021年12月31日
比AI视频换脸还可怕!DeepMind新AI可生成逼真视频
智东西
10+阅读 · 2019年7月23日
生成对抗网络的研究进展与趋势
中国计算机学会
35+阅读 · 2018年11月14日
相关基金
离子液体@钯核壳纳米材料的可控合成及其一步氧化酯化反应催化性能评估
国家自然科学基金
0+阅读 · 2015年12月31日
基于深度学习的四元数小波彩色图像质量评价及其应用
国家自然科学基金
0+阅读 · 2014年12月31日
条件模型的计量经济学方法探讨及应用
国家自然科学基金
1+阅读 · 2013年12月31日
视觉注意模型及其在显著目标检测中的应用研究
国家自然科学基金
3+阅读 · 2013年12月31日
基于深度与图像信息融合的场景理解及应用
国家自然科学基金
0+阅读 · 2012年12月31日
半极性面GaN基偏振光LED外延技术及性能研究
国家自然科学基金
0+阅读 · 2012年12月31日
通过社会化媒体挖掘用户兴趣的方法及应用研究
国家自然科学基金
0+阅读 · 2012年12月31日
厘米级BiFeO3单晶的合成及其高温铁电相转变研究
国家自然科学基金
0+阅读 · 2012年12月31日
闪烁光纤屏光锥耦合的热中子探测与成像应用基础研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于认知语境的文本情感计算及其应用
国家自然科学基金
1+阅读 · 2009年12月31日
相关论文
Domain Transformer: Predicting Samples of Unseen, Future Domains
Arxiv
0+阅读 · 2022年6月10日
A taxonomy of explanations to support Explainability-by-Design
Arxiv
0+阅读 · 2022年6月9日
Scaleformer: Iterative Multi-scale Refining Transformers for Time Series Forecasting
Arxiv
0+阅读 · 2022年6月8日
Structured Context Transformer for Generic Event Boundary Detection
Arxiv
0+阅读 · 2022年6月7日
Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with Learned Morph Maps
Arxiv
0+阅读 · 2022年6月6日
Natural Language Descriptions of Deep Visual Features
Arxiv
12+阅读 · 2022年1月26日
VideoDG: Generalizing Temporal Relations in Videos to Novel Domains
Arxiv
14+阅读 · 2021年9月17日
Domain Generalization using Causal Matching
Arxiv
12+阅读 · 2021年6月29日
GAN Inversion: A Survey
Arxiv
19+阅读 · 2021年1月14日
Data Augmentation using Pre-trained Transformer Models
Arxiv
15+阅读 · 2020年3月4日
大家都在搜
自主可控
洛克菲勒
大规模语言模型
研究报告
基础模型
科研工具
语义地图
palantir
spacy
社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top