DALL-E官方论文代码终于放出,OpenAI是如何实现图像版GPT-3的?

2021 年 2 月 25 日 机器之心
机器之心报道
机器之心编辑部

OpenAI 放出 DALL-E 的部分论文与实现代码。

今年年初,OpenAI 图像版 GPT-3、120 亿参数的 DALL-E 刷屏社区,这个大型模型可以将以自然语言形式表达的大量概念转换为合适的图像,效果十分惊艳。

如输入「牛油果形状的椅子」,就可以获得绿油油、形态各异的牛油果椅子图像。


如果 GPT-3 一样,大家都在期待 OpenAI 放出 DALL-E 的官方论文与实现代码。

经过近两个月的等待,DALL-E 的论文和代码终于新鲜出炉!


不过此项目正在更新,截止发稿时 DALL-E 只开放了使用图像重建部分 d-VAE 训练的 CNN 编码器和解码器部分,而 Transformer 代码部分还没有公开。 除此以外数据集也不能使用。 而论文也是公布了 d-VAE 的论文。


  • 项目地址:https://github.com/openai/DALL-E

  • 论文地址:https://arxiv.org/abs/2102.12092


只能期待后续 OpenAI 公开更多的技术细节。

DALL-E 部分代码已开源


这是为 DALL·E 所使用的 d-VAE 的官方 PyTorch 包。 在运行 DALL-E/notebooks/usage.ipynb 程序之前,需要先安装软件包,代码如下:

pip install git+https://github.com/openai/DALL-E.git

解码器、编码器代码

d-VAE 论文

年初在论文还没有公开的情况下,就有人开始复现,他们复现的依据来自某博主制作的油管视频,在视频中,对 DALL·E 的原理结构进行了猜测。那么,现在论文已公开,是否颠覆了他的预想。


传统上,文本到图像的生成主要集中在在固定的训练数据集上找到更好的建模假设。这些假设可能涉及复杂的体系架构、辅助损失或辅助信息,例如在训练期间提供的对象部件标签或分割掩码。该研究提出了一种基于 transformer 的简单方法,将文本和图像 token 作为单个数据流进行自回归建模。在足够的数据和扩展的情况下,当以 zero-shot 方式评估时, 该研究提出的方法与以前的领域特定模型具有相当的竞争力。


AWS白皮书《策略手册:数据、 分析与机器学习》


曾存储过 GB 级业务数据的组织现在发现,所存储的数据量现已达 PB 级甚至 EB 级。要充分利用这 些海量数据的价值,就需要利用现代化云数据基础设施,从而将不同的信息竖井融合统一。

无论您处于数据现代化改造过程中的哪个阶段,本行动手册都能帮助您完善策略,在整个企业范围内高效扩展数据、分析和机器学习,从而加快创新并推动业务发展。

点击阅读原文,免费领取白皮书

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
44+阅读 · 2020年3月6日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
中国人工智能学会
7+阅读 · 2019年2月15日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
Arxiv
9+阅读 · 2021年2月8日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关VIP内容
相关论文
Top
微信扫码咨询专知VIP会员