文本生成图像(T2I)是指在文本引导下生成高质量图像的技术。近年来,T2I 引发了广泛关注,并涌现出大量相关研究工作。在本综述中,我们全面回顾了2021年至2024年间发表的141项研究。

首先,我们介绍了 T2I 的四种基础模型架构:自回归(autoregression)、非自回归(non-autoregression)、生成对抗网络(GAN)以及扩散模型(diffusion),并总结了常用的关键技术,包括自动编码器(autoencoder)、注意力机制(attention)和无分类器引导(classifier-free guidance)。

其次,我们从两个方向系统比较了这些研究的方法:T2I 图像生成与 T2I 图像编辑,涵盖所使用的编码器及关键技术。此外,我们还从数据集、评估指标、训练资源与推理速度等方面对比了各方法的性能。

除上述四类基础模型外,我们还调查了其他类型的 T2I 工作,如基于能量的模型(energy-based models)、最新的 Mamba 架构以及多模态(multimodality)方法。我们同时探讨了 T2I 技术可能带来的社会影响,并提出了一些应对方案。

最后,我们提出了提升 T2I 模型性能的独特见解,并展望了未来可能的发展方向。总之,本综述是首个对 T2I 技术进行系统而全面的综述,旨在为后续研究人员提供有价值的参考,并促进该领域的持续进步。

1 引言

随着生成模型(如 GAN、自回归(AR)、扩散(Diffusion)与非自回归(NAR))的发展,文本生成图像(Text-to-Image, 简称 T2I)取得了显著进展,并涌现出大量研究成果。本文综述旨在为研究者提供一个全局视角,包括对当前主流研究工作的比较分析以及一些新兴研究方向的介绍,帮助研究者深入理解 T2I 的发展脉络。 本综述所收录的 T2I 论文的筛选标准如下: 1)我们调研了 2021 年至 2024 年间发表的 T2I 相关论文; 2)我们收录了社区内受到广泛关注的代表性 T2I 论文及其后续工作,例如:LDM [52, 195, 216, 228]、Imagen [34, 221, 263]、DALL-E [16, 208, 209]、Cogview [46, 47, 316] 和 Pixart [29, 31] 等; 3)我们选取了在顶级学术会议中发表的 T2I 论文; 4)我们进一步纳入了被上述论文引用(作为对比或相关工作提及)的 T2I 研究; 5)在撰写本综述期间,我们关注了 arXiv 上最新的高影响力 T2I 论文,其中部分论文在本综述完成前已被会议接收,详见表 2。 以往关于 T2I 的综述通常只聚焦于某一种基础模型,如 GAN [2, 62] 或 Diffusion [24, 295]。尽管也有综述 [4, 17, 238, 240, 294, 322] 涉及多种基础模型,但相比之下仍显不足: 1)所综述的 T2I 论文数量较少; 2)未涵盖如 Mamba 等近期新兴工作; 3)缺乏充分的比较分析,而我们采用并列比较方法(详见附录中的表 2 与表 3),能清晰展示不同模型之间的差异; 4)相比其他综述,我们深入探讨了 T2I 技术可能带来的社会影响及应对方案; 5)基于现有文献,我们提出了更多未来的研究方向。详见表 1 的综述比较。 需要指出的是,[24] 与 [238] 包含了大量 T2I 论文,但与我们综述的重合度较低。原因如下:[24] 中约 75% 的论文来自 arXiv,与我们的选文标准不同;本综述中与其重合的论文主要是受到社区高度关注及被会议接收的工作。与我们同时关注图像生成与编辑不同,[238] 仅聚焦于图像编辑,未涉及如 LDM [216]、Imagen [221] 等知名生成模型。此外,[238] 更侧重于多模态生成,包含了大量基于大语言模型(LLM)的图像编辑研究,而这并非我们的重点,仅在第 3.5 节中简要提及。本综述与 [238] 重合的论文主要为著名的图像编辑模型,如 DreamBooth [220]、Textual Inversion [64]、InstructPix2Pix [19] 等。

成为VIP会员查看完整内容
2

相关内容

在自然语言处理中,另外一个重要的应用领域,就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。
225页《在线学习简明介绍》书册
专知会员服务
14+阅读 · 5月3日
CLIP通用提示学习的简要概述
专知会员服务
15+阅读 · 3月13日
生成式建模:综述
专知会员服务
33+阅读 · 1月13日
统一的多模态文字理解与生成大模型
专知会员服务
29+阅读 · 2024年10月11日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
21+阅读 · 2022年12月7日
专知会员服务
65+阅读 · 2021年5月29日
图像分割方法综述
专知会员服务
56+阅读 · 2020年11月22日
专知会员服务
39+阅读 · 2020年10月15日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
立体匹配技术简介
计算机视觉life
28+阅读 · 2019年4月22日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
一文概览用于图像分割的CNN
论智
14+阅读 · 2018年10月30日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
手把手教你用LDA特征选择
AI研习社
12+阅读 · 2017年8月21日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
457+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
225页《在线学习简明介绍》书册
专知会员服务
14+阅读 · 5月3日
CLIP通用提示学习的简要概述
专知会员服务
15+阅读 · 3月13日
生成式建模:综述
专知会员服务
33+阅读 · 1月13日
统一的多模态文字理解与生成大模型
专知会员服务
29+阅读 · 2024年10月11日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
21+阅读 · 2022年12月7日
专知会员服务
65+阅读 · 2021年5月29日
图像分割方法综述
专知会员服务
56+阅读 · 2020年11月22日
专知会员服务
39+阅读 · 2020年10月15日
相关资讯
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
立体匹配技术简介
计算机视觉life
28+阅读 · 2019年4月22日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
一文概览用于图像分割的CNN
论智
14+阅读 · 2018年10月30日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
手把手教你用LDA特征选择
AI研习社
12+阅读 · 2017年8月21日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员