会员服务 ·

带标签图像数据无限生成！GPT-3+DALL-E 2联合，或彻底解决CV界的「粮食危机」

2022 年 4 月 22 日 新智元

新智元报道

编辑：LRS

【新智元导读】没有优质数据，再强大的模型也无法发挥作用。最近有研究人员发现，GPT-3+DALL-E 2模型如果结合在一起，就能自动生成海量的带标签数据，可以用来扩增和平衡数据集、抵御对抗攻击等。

巧妇难为无米之炊，没有数据何以训模型？

根据2022年Datagen对300个计算机视觉研发团队的调研结果，99%的CV团队因为训练数据不足而取消了该机器学习项目。

与此同时，收集数据带来的模型训练延迟也无处不在，100%的团队报告说由于训练数据不足而导致过严重的项目延迟。

研究还表明，训练数据相关的问题还不止是数据不足的问题，其他主要问题如标注质量不佳 (48%)、域覆盖度不足 (47%) 等都困扰着CV模型研发团队。

不过报告中指出，96%的CV团队都已经开始采用合成图像来补充数据集辅助模型训练。但合成数据的质量、来源和比例在领域内还存在较大差异，目前只有6%的团队专门使用合成数据进行训练。

与此同时，OpenAI最近更新了多模态模型DALL-E 2，只要能给出一段文本描述，模型就能生成对应的图像。

新模型采用了更先进的深度学习技术、更大的算力提升了图像的质量和分辨率，并且相比一代也有了更多功能，例如编辑图像或者基于给定图像进行二次创作。

DALL-E 2一出，由于效果太好，获得了大量的AI爱好者和研究人员在社交媒体上的称赞。

新模型除了根据文本来生成图像以外，或许还能用来解决「计算机视觉领域的最大挑战」——数据不足。

报告认为2022年合成数据的研究将取得突破性进展，现在看来，DALL-E 2或许是开出的第一枪。

CV的短板

计算机视觉AI应用领域十分广泛，从检测CT扫描中的良性肿瘤到实现自动驾驶都需要CV算法，但这些应用都有一个共同点：需要大量的数据来训练。

深度学习算法能取得远超其他模型性能的一个重要原因就是能吃下大容量的数据集，例如谷歌内部用于训练图像分类模型的数据集JFT就包含了3亿张图像和3.75亿个标签。

想象一下图像分类模型的工作流程：神经网络将像素颜色转化为代表其特征的一组数字，也称为输入的embedding。然后这些特征被映射到输出层，其中包含模型要检测的每一类图像的概率值。在训练过程中，神经网络试图学习能够区分不同类别的最佳特征表示，例如，杜宾犬与贵宾犬的尖耳朵特征。

理想情况下，机器学习模型可以学会在不同的照明条件、角度和背景环境下进行泛化。但更多时候，深度学习模型会因为数据量多样性不足而过拟合，导致学习到错误的表征。

虽说「大力出奇迹」，加大数据量就能解决这个问题，但你需要收集所有需要的样本。然后，你还需要确保每个类别有足够的标签数据，以防止模型对某些类别过拟合或欠拟合。最后，你需要给每张图片贴上标签，说明哪张图片对应于哪个类别。

在一个更好的模型问世前，这三步通常是实现sota的有效措施。

但即使如此，计算机视觉模型也很容易被欺骗，尤其是遭受到对抗性攻击（adversarial attacks）。解决的方法也很简单：继续加入更多有标签的、精心挑选的、多样化的数据。

DALL-E 2救世

拿一个「狗品种分类器」举例，有一个非常难找的图片类别——达尔马提亚犬（Dalmatian），也叫斑点狗、大麦町犬。

如果用DALL-E 2该怎么解决斑点狗数据量不足的问题？

1、正常使用（Vanilla use），将类的名称作为文本提示的一部分反馈给DALL-E，并将生成的图像添加到该类的标签中。例如输入文本为「一只大麦町犬在公园里追赶一只鸟」。

2、更改文本，在保持同一类别的情况下，搭配不同的环境和风格来提高模型的泛化能力。例如文本修改为「一只大麦町的狗在海滩上追逐一只鸟」。切换图像风格的输入文本可以是「卡通风格，一只大麦町狗在公园里追赶一只鸟」。

3、对抗性样本。使用类的名称来创建一个对抗性例子的数据集，例如「一辆类似大麦町的汽车」。

4、DALL-E 2的新功能之一就是可以根据输入图像生成多种变化后的图像，扩增数据集的时候可以将每张图像的突出点融合起来。也就是可以编写一个脚本，将数据集中的所有现成图像都作为DALL-E 2的输入，为每个类别生成几十种变化。

5、图像修复。DALL-E 2还可以对现有图像进行逼真的编辑，在考虑到阴影、反射和纹理的情况下添加和删除元素。这也可以成为一种强大的数据增强技术来进一步训练和增强基础模型。

除了生成更多的训练数据，使用DALL-E 2的一个好处是，新生成的图像已经被贴上了标签，无需再次标注一遍图像。

虽然生成对抗网络等图像生成技术已经存在了相当长的时间，但DALL-E 2的区别在于其1024×1024的高分辨率，将文本转化为图像的多模态性质和其强大的语义一致性，能够正确理解特定图像中不同物体之间的关系。

GPT-3助阵

DALL-E的输入是期望生成图像的文本提示。

但从文本模板里生成的话就太慢了，多样性也不强，我们可以利用文本生成模型GPT-3，为每个类别生成几十个文本提示，然后用DALL-E生成几十个图像并标记为对应的类别。

根据模板A [class_name] [gpt3_generated_actions]，可以给GPT-3提供一个类名，让其补全为具体的场景提示，就可以得到输入文本为「一只躺在地上的大麦町犬」。

为了进一步提高对新增加的样本的信心，人们可以设置一个确定性阈值，只选择在指定排名前的生成文本。

合成图像并非银弹

如果DALL-E不加以审查，其生成的结果可能是不准确的、或局限在某个领域内的图像，排除特定的种族群体或忽略可能导致偏见的特征。比如用man生成的人脸图像，可能最后训出来的模型只能针对男性的人脸图像进行检测。

此外，在病理学或自动驾驶汽车等特定领域，使用由DALL-E生成的图像可能会有很大的风险，因为在这些领域，假阴性的代价是非常大的。

DALL-E 2也还存在一些局限性，比如对物体的构成性（compositionality）认知不是特别好。如果仅依靠提示，就假设生成图像中物体的位置是正确的，可能存在一定风险。

缓解这种情况的方法包括人工采样，即由人类专家随机选择样本来检查其有效性。为了优化过程，也可以采用主动学习的方法，对于一个给定的标题，得到最低CLIP排名的图像会被优先审查。

结语

DALL-E 2是OpenAI的又一激动人心的研究成果，它为更广泛的应用场景打开了大门，能够生成海量数据集来解决计算机视觉的最大瓶颈之一。

OpenAI表示，它将在今年夏天的某个时候发布DALL-E，也可能是分阶段发布，为感兴趣的用户进行预选。

对于那些等不及的人，或者没有能力支付这项服务的人，可以使用开源的替代品，如DALL-E Mini。

虽然许多基于DALL-E的应用程序的商业案例将取决于OpenAI为其API用户设定的定价和政策，但它们都肯定会使图像生成向前迈进一大步。

参考资料：

https://venturebeat.com/2022/04/16/how-dall-e-2-could-solve-major-computer-vision-challenges/

登录查看更多

相关内容

GPT-3

关注 4

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

41+阅读 · 2022年3月15日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

【CVPR2021】预训练图像处理Transformer

专知会员服务

46+阅读 · 2021年6月1日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

专知会员服务

26+阅读 · 2021年1月18日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

30+阅读 · 2020年11月21日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

重磅！谷歌用扩散模型来生成视频了！刷新SOTA

CVer

1+阅读 · 2022年4月12日

OpenAI发布DALL-E 2，文字生成图像工具新的“天花板”？

学术头条

0+阅读 · 2022年4月7日

字节最新文本生成图像AI，训练集里居然没有一张带文字描述的图片？！

量子位

1+阅读 · 2022年3月23日

刷新SOTA！Salesforce提出跨模态对比学习新方法，仅需4M图像数据！

夕小瑶的卖萌屋

2+阅读 · 2021年8月5日

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

业界 | GAN生成的假脸太逼真了！别怕，十招教你识别AI生成的假图像

大数据文摘

15+阅读 · 2018年12月18日

腾讯开源业内最大多标签图像数据集，附ResNet-101模型

量子位

10+阅读 · 2018年9月10日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的汉字书写风格建模与重建方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于空间相关性的空间数据离散化算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

高分辨率CZT像素阵列探测器研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏表示理论的高光谱遥感图像的特征提取与分类

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉感知的图像分割评价方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

模拟人类视觉系统的基于图像的快速三维建模方法

国家自然科学基金

0+阅读 · 2011年12月31日

基于动量守恒定律的汽车碰撞模型病态问题形成机理及处理方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于小样本数据的决策单元效率评价方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于机器视觉的最好质量图像评价和产生方法

国家自然科学基金

0+阅读 · 2009年12月31日

Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens

Arxiv

0+阅读 · 2022年6月13日

BERTuit: Understanding Spanish language in Twitter through a native transformer

Arxiv

0+阅读 · 2022年6月13日

CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP

Arxiv

0+阅读 · 2022年6月13日

Learning to Rank Rationales for Explainable Recommendation

Arxiv

0+阅读 · 2022年6月10日

RuCoCo: a new Russian corpus with coreference annotation

Arxiv

0+阅读 · 2022年6月10日

Transformers in Medical Image Analysis: A Review

Arxiv

40+阅读 · 2022年2月24日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

10+阅读 · 2018年4月29日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

VIP会员