成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
OpenAI发布DALL-E 2,文字生成图像工具新的“天花板”?
2022 年 4 月 7 日
学术头条
DALL-E 2输出的“泰迪熊像一个蒸汽朋克时代的疯狂科学家一样混合闪闪发光的化学物质”的结果
DALL-E的问世曾让人们惊艳于AI根据一段话直接生成图像的能力,如今一年过去,
OpenAI开发了一个新版本的DALL-E,效果较之前又更好了。
如下图所示,DALL-E 2实现了更高分辨率和更低延迟,而且还包括了新的功能,如编辑现有图像。
与之前的OpenAI工作一样,新工具没有直接向公众发布。但研究人员可以在线注册预览该系统,OpenAI希望以后能将其用于第三方应用。
从穿着法兰绒衬衫的人体描绘到“乌龟长颈鹿”、萝卜遛狗等匪夷所思的画面,2021年DALL-E的text to image生成效果,让人们一窥多模态的潜力,也带动着多模态图像合成与编辑方向的大火,前有 DALL-E、GauGAN2,后有统一的多模态预训练模型“女娲”。
这些连接文本和视觉领域的技
术创新使我们更接近实现多模态AI系统。
DALL-E
刚刚对外宣布的时候,OpenAI表示将继续在该系统的基础上进行开发,同时检查图像生成中的偏见或错误信息的产生等潜在危险。
OpenAI试图通过技术保障措施和新的内容政策来解决这些问题,同时还降低了计算负载,推进了模型的基本功能。
DALL-E 2 生成的“柴犬戴着贝雷帽穿着黑色高领毛衣”图像
DALL-E 2的一个值得关注的新功能是编辑,
用户可以从现有图片开始,选择一个区域,然后告诉模型对其进行编辑。
编辑功能的演示,
DAL
L-E
2在一个现有图片的房间角落加一个火烈鸟摆设。
例如,你可以在客厅的墙上画一幅画,然后换成另一幅画,或者在咖啡桌上放一瓶花。
模型可以填充(或移除)对象,同时考虑房间中阴影的方向等细节。
变体
功能的演示
DALL-E 2还有一个功能是变体(
variations
),
用户可以上传一张起始图片,然后创建一系列类似的变体,还可以混合两个图像,生成具有这两种元素的图像。
DALL-E 2基于CLIP,一个由OpenAI去年发布的计算机视觉系统。
OpenAI推出的两个连接文本与图像的神经网络DALL-E 和 CLIP中,DALL-E 可以基于文本直接生成图像,而CLIP 则能够完成图像与文本类别的匹配。
CLIP embeddings 具有许多理想的特性:对图像分布变化具有鲁棒性,并且已经过微调以在各种视觉和语言任务上实现最先进的结果。同时,diffusion models已经成为一种有前途的生成建模框架,推动了图像和视频生成任务的最新技术。在这项工作中,OpenAI团队结合这两种方法来解决文本条件图像生成问题。
OpenAI研究科学家Prafulla Dhariwal表示:“DALL-E 1刚刚从语言中采用了GPT-3方法,并将其应用于生成图像:我们将图像压缩成一系列单词,然后才学会预测接下来会发生什么”。
但是单词匹配并不一定能捕捉到重点,而且预测过程限制了图像的真实性。
CLIP的设计目的,是以人类的方式查看图像并总结其内容,而OpenAI在这个过程中迭代创建了“
unCLIP
”——一个以描述开始并朝着图像生成目标运行的版本。
DALL-E
2使用一种 diffusion model 生成图像,Dhariwal将其描述为从“一袋点状物”开始,然后以越来越大的细节填充图案。
有趣的是,一份关于unCLIP的研究表示,它部分地躲开了CLIP一个非常有趣的缺点:人们可以通过在一个对象(比如史密斯奶奶的苹果)上标记一个表示其他东西(比如iPod)的单词,来愚弄模型的识别能力。
作者表示,即使使用了一张贴错标签的图片,CLIP也无法识别ta是史密斯奶奶,变体工具“仍然很有可能生成苹果的图片。
DALL-E的完整模型从未公开发布,但在过去一年中,其他开发人员已经开发了一些具有相似功能的工具。
其中一个受欢迎的主流应用是Wombo的Dream移动应用,用户以各种艺术风格描述的任何东西的图片,
它都可以生成
。
虽然OpenAI今天没有发布任何新模型,但开发者可以利用其技术发现来更新自己的工作。
DALL-E 2生成“一碗看起来像怪物、用羊毛织成的汤”
而对于自己的这一系列颇具影响力的工作,目前
OpenAI已经实施了一些内置的保护措施。例如
该模型是根据剔除了不良内容的数据进行训练的,因此也在一定程度上限制了其生成不良内容的能力。
该模型也无法根据姓名生成任何可识别的人脸,即使要求使用蒙娜丽莎之类的东西。
DALL-E 2将由经过OpenAI审查的合作伙伴进行测试,但需注意一些事项,包括
用户被禁止上传或生成“非G级”和“可能造成伤害”的图像,任何涉及仇恨符号、裸体、猥亵手势,或“与正在发生的重大地缘政治事件有关的重大阴谋或事件”的图像。
测试用户还必须披露人工智能在生成图像中的作用。
但OpenAI希望将
DALL-E 2
纳入该组织的API工具集中,从而为第三方应用提供动力。
Dhariwal表示
:
“我们希望继续进行分阶段的过程,这样就可以不断从得到的反馈中评估如何安全地发布这项技术
”。
论文:https://cdn.openai.com/papers/dall-e-2.pdf
点这里关注我👇记得标星~
热门视频推荐
更多精彩视频,
欢迎关注
学术头条视频
号
# 往期推荐 #
winter
【学术头条】持续招募中,期待有志之士的加入
强势招募兼职作者!邀你书写前沿科技内容
2021-12-21
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
OpenAI
关注
27
OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。
【ICML2021】通过文本生成统一视觉和语言任务
专知会员服务
18+阅读 · 2021年9月13日
文本对抗样本攻击与防御技术综述
专知会员服务
28+阅读 · 2021年9月11日
【ACL2021】基于跨模态对比学习的统一模态理解与生成方法
专知会员服务
28+阅读 · 2021年8月5日
最新《图像描述Image Captioning》综述论文,22页pdf220篇文献
专知会员服务
42+阅读 · 2021年7月17日
自动化所研发全球首个图文音三模态预训练模型,让AI更接近人类想象力!
专知会员服务
34+阅读 · 2021年7月8日
SiT: 自监督视觉Transformer
专知会员服务
63+阅读 · 2021年4月11日
图像描述生成研究进展
专知会员服务
69+阅读 · 2021年3月29日
文澜:超大规模多模态预训练模型!
专知会员服务
65+阅读 · 2021年3月21日
【CVPR2020】通过自适应GANs生成不同的图像,Diverse Image Generation via Self-Conditioned GANs
专知会员服务
33+阅读 · 2020年6月19日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
观点丨DALL-E 2、AI研究的未来以及OpenAI的商业前景
学术头条
1+阅读 · 2022年4月15日
无痕 PS、读得懂文字,OpenAI 的二代 DALL·E 惊艳亮相!
CSDN
0+阅读 · 2022年4月14日
专治各种噩梦级抠图!魏茨曼联合英伟达发布Text2LIVE,用自然语言就能PS
新智元
0+阅读 · 2022年4月14日
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
新智元
0+阅读 · 2022年4月10日
DALL·E这波超进化,画质艺术感双飞升,还学会了无痕P图
量子位
0+阅读 · 2022年4月7日
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
机器之心
1+阅读 · 2022年4月7日
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓
机器之心
0+阅读 · 2021年12月26日
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
机器之心
0+阅读 · 2021年12月22日
AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定
机器之心
0+阅读 · 2021年11月26日
图像、视频生成大一统!MSRA+北大全华班「女娲」模型怒刷8项SOTA,完虐OpenAI DALL-E
新智元
0+阅读 · 2021年11月26日
自然场景图像中的部分形状识别方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于音节模型的音频点播关键技术研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于主动轮廓模型的自然图像分割研究
国家自然科学基金
0+阅读 · 2013年12月31日
带类噪声的大规模张量分类算法研究
国家自然科学基金
0+阅读 · 2012年12月31日
维、哈、柯跨语言内容过滤关键技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
新闻类数字照片真实性鉴定的关键技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
基于数据驱动的中文自然语言生成关键技术研究
国家自然科学基金
7+阅读 · 2012年12月31日
图像语义自动文本描述技术研究
国家自然科学基金
2+阅读 · 2012年12月31日
天基预警雷达STAP-TBD关键技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
大规模的多尺度和多模态虚拟心脏计算与可视化方法研究
国家自然科学基金
0+阅读 · 2011年12月31日
6GCVAE: Gated Convolutional Variational Autoencoder for IPv6 Target Generation
Arxiv
0+阅读 · 2022年4月20日
Multimodal Token Fusion for Vision Transformers
Arxiv
3+阅读 · 2022年4月19日
SkillNet: A Sparsely Activated Model for General-Purpose Natural Language Understanding
Arxiv
0+阅读 · 2022年4月18日
Hierarchical Transformers Are More Efficient Language Models
Arxiv
2+阅读 · 2022年4月16日
Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer
Arxiv
0+阅读 · 2022年4月15日
Separating the World and Ego Models for Self-Driving
Arxiv
0+阅读 · 2022年4月14日
Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey
Arxiv
30+阅读 · 2021年11月1日
Pix2seq: A Language Modeling Framework for Object Detection
Arxiv
10+阅读 · 2021年9月22日
Efficient Transformers: A Survey
Arxiv
23+阅读 · 2020年9月16日
Unsupervised Domain Clusters in Pretrained Language Models
Arxiv
11+阅读 · 2020年4月5日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
OpenAI
多模态
模态
图像生成
多模态预训练模型
多模态预训练
相关VIP内容
【ICML2021】通过文本生成统一视觉和语言任务
专知会员服务
18+阅读 · 2021年9月13日
文本对抗样本攻击与防御技术综述
专知会员服务
28+阅读 · 2021年9月11日
【ACL2021】基于跨模态对比学习的统一模态理解与生成方法
专知会员服务
28+阅读 · 2021年8月5日
最新《图像描述Image Captioning》综述论文,22页pdf220篇文献
专知会员服务
42+阅读 · 2021年7月17日
自动化所研发全球首个图文音三模态预训练模型,让AI更接近人类想象力!
专知会员服务
34+阅读 · 2021年7月8日
SiT: 自监督视觉Transformer
专知会员服务
63+阅读 · 2021年4月11日
图像描述生成研究进展
专知会员服务
69+阅读 · 2021年3月29日
文澜:超大规模多模态预训练模型!
专知会员服务
65+阅读 · 2021年3月21日
【CVPR2020】通过自适应GANs生成不同的图像,Diverse Image Generation via Self-Conditioned GANs
专知会员服务
33+阅读 · 2020年6月19日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
热门VIP内容
开通专知VIP会员 享更多权益服务
军用数据链:武器装备神经,联合作战基石,31页pdf
【ETHZ博士论文】超越像素深度:通过深度学习增强超分辨率技术,198页pdf
2018∼2023年国家自然科学基金人工智能学科人才项目申请及资助综述
【NeurIPS2024】《AmoebaLLM:构建任意形状的大型语言模型以实现高效和即时部署》
相关资讯
观点丨DALL-E 2、AI研究的未来以及OpenAI的商业前景
学术头条
1+阅读 · 2022年4月15日
无痕 PS、读得懂文字,OpenAI 的二代 DALL·E 惊艳亮相!
CSDN
0+阅读 · 2022年4月14日
专治各种噩梦级抠图!魏茨曼联合英伟达发布Text2LIVE,用自然语言就能PS
新智元
0+阅读 · 2022年4月14日
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
新智元
0+阅读 · 2022年4月10日
DALL·E这波超进化,画质艺术感双飞升,还学会了无痕P图
量子位
0+阅读 · 2022年4月7日
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
机器之心
1+阅读 · 2022年4月7日
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓
机器之心
0+阅读 · 2021年12月26日
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
机器之心
0+阅读 · 2021年12月22日
AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定
机器之心
0+阅读 · 2021年11月26日
图像、视频生成大一统!MSRA+北大全华班「女娲」模型怒刷8项SOTA,完虐OpenAI DALL-E
新智元
0+阅读 · 2021年11月26日
相关基金
自然场景图像中的部分形状识别方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于音节模型的音频点播关键技术研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于主动轮廓模型的自然图像分割研究
国家自然科学基金
0+阅读 · 2013年12月31日
带类噪声的大规模张量分类算法研究
国家自然科学基金
0+阅读 · 2012年12月31日
维、哈、柯跨语言内容过滤关键技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
新闻类数字照片真实性鉴定的关键技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
基于数据驱动的中文自然语言生成关键技术研究
国家自然科学基金
7+阅读 · 2012年12月31日
图像语义自动文本描述技术研究
国家自然科学基金
2+阅读 · 2012年12月31日
天基预警雷达STAP-TBD关键技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
大规模的多尺度和多模态虚拟心脏计算与可视化方法研究
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
6GCVAE: Gated Convolutional Variational Autoencoder for IPv6 Target Generation
Arxiv
0+阅读 · 2022年4月20日
Multimodal Token Fusion for Vision Transformers
Arxiv
3+阅读 · 2022年4月19日
SkillNet: A Sparsely Activated Model for General-Purpose Natural Language Understanding
Arxiv
0+阅读 · 2022年4月18日
Hierarchical Transformers Are More Efficient Language Models
Arxiv
2+阅读 · 2022年4月16日
Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer
Arxiv
0+阅读 · 2022年4月15日
Separating the World and Ego Models for Self-Driving
Arxiv
0+阅读 · 2022年4月14日
Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey
Arxiv
30+阅读 · 2021年11月1日
Pix2seq: A Language Modeling Framework for Object Detection
Arxiv
10+阅读 · 2021年9月22日
Efficient Transformers: A Survey
Arxiv
23+阅读 · 2020年9月16日
Unsupervised Domain Clusters in Pretrained Language Models
Arxiv
11+阅读 · 2020年4月5日
大家都在搜
智能推荐
PRML
大型语言模型
自主武器
无人机蜂群
洛克菲勒
无人艇
MoE
壁画
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top