当人类阅读特定文本时,往往会将其与相应的图像进行联想,我们希望计算机也能做到这一点。文本到图像合成(T2I)旨在从文本描述中生成高质量的图像,已成为人工智能生成内容(AIGC)的一个重要方向,并且是人工智能研究中的一项变革性技术。基础模型在T2I中发挥着关键作用。本调查综述了超过440篇关于T2I的最新研究成果。我们首先简要介绍了生成对抗网络(GANs)、自回归模型和扩散模型在图像生成中的应用。在此基础上,我们讨论了这些模型在T2I中的发展,重点关注它们在文本条件下的生成能力和多样性。我们还探讨了T2I研究的前沿进展,涉及性能、可控性、个性化生成、安全性问题以及内容一致性和空间关系的保持等多个方面。此外,我们总结了T2I研究中常用的数据集和评估指标。最后,我们讨论了T2I在AIGC中的潜在应用,以及该领域面临的挑战和未来的研究机会。

文本和图像是记录客观世界的基本手段。正如谚语所说:“一图胜千言”。当我们阅读纯文本时,往往会在脑海中形成相应的图像,帮助我们更好地理解内容。在计算机领域,文本到图像生成(T2I)[1],[2],[3],[4],[5],[6],[7],[8],[9],[10],[11],[12],[13],[14],[15]结合了自然语言处理(NLP)[16],[17],[18]和计算机视觉(CV)[19],[20],[21],指的是利用特定模型从文本描述中生成逼真图像的过程。由于其在多个领域革命性地改变内容创作的潜力,T2I受到了广泛关注。通过将文本描述转化为视觉内容,这项技术架起了语言与图像之间的桥梁,为艺术、设计和多媒体应用开辟了新的可能性。此外,T2I在人工智能生成内容(AIGC)[22]中扮演着重要角色,并且是走向通用人工智能的一个重要里程碑[23],[24],[25]。图1展示了T2I领域的一系列代表性作品。 随着深度学习[48]的进展,T2I模型已经能够生成更精细的图像,能够更贴切地匹配文本描述。回顾T2I模型的发展历程,由Elman Mansimov团队提出的AlignDRAW[1]被认为是该领域的开创性工作。该模型通过引入注意力机制[49],有效地展示了生成图像与文本描述之间的关系,尽管在某些情况下生成图像的质量仍需改进。 生成对抗网络(GANs)[50]的引入为T2I带来了显著进展。在条件生成对抗网络(cGAN)[51]的启发下,Reed等人设计了GAN-CLS和GNA-INT模型[2],它们是首批将GAN应用于T2I任务的工作,展示了GAN在生成高质量、细节丰富的图像方面的优势。这一阶段标志着GAN在T2I中的应用取得了重要突破[3],[4],[34]。 利用来自NLP的Transformer架构[17],OpenAI推出了DALL-E模型[7]。该模型是首个采用自回归(AR)方法进行图像生成的模型,利用大规模数据集生成多样化的图像。尽管AR方法展示了高质量的生成能力[9],[35],[45],但其巨大的计算成本限制了其在某些应用场景中的实用性。 近年来,受到非平衡热力学启发的扩散模型(DM)[52],[53]逐渐成为T2I领域最先进的方法。GLIDE[8]是首个将扩散模型应用于T2I任务的工作,通过在像素空间中操作,展示了出色的生成能力。潜在扩散模型(LDM)[33]的引入突显了潜在空间在扩散模型中的重要性,显著提高了生成图像的质量。随着研究的深入,扩散模型展示了无与伦比的有效性[12],[13],[15],使其成为T2I研究中最受欢迎的方向之一。 T2I技术的持续进展激发了学术界的热烈讨论[54]。各研究团队不断发布新的论文,技术更新的快速步伐给新入门者带来了不小的挑战。当前的研究已经探索了GAN在T2I中的发展[55],[56]、扩散模型(DM)的进展[57],以及关于可控生成模块的相关工作[58]。然而,关于T2I最新方向的综合性综述仍然有限。为了帮助研究人员了解T2I的最新进展,本文将介绍GAN、AR和DM模型的基本原理,并对它们的进展进行详细回顾。此外,本文还将全面综述T2I的前沿研究方向,旨在为研究人员提供清晰的路线图和宝贵的参考,助力进一步探索。 本文结构如下:第2节介绍GAN、AR模型和扩散模型的数学原理和模型结构;第3节回顾这三种模型的发展历程,突出不同阶段的代表性工作,并解释它们的技术演变;第4节探讨T2I的最新研究方向,包括详细控制、可控T2I生成、个性化图像生成、一致性问题以及与安全性和版权保护相关的挑战;第5节描述T2I研究中常用的数据集和评估指标,并通过这些指标比较各种模型的效果;第6节介绍T2I的最新应用,突显其在AIGC中的重要性和潜在影响;最后,第7节总结T2I的研究成果,回顾过去的挑战,并讨论未来发展方向及进一步研究的建议。

成为VIP会员查看完整内容
1

相关内容

图检索增强生成研究进展
专知会员服务
24+阅读 · 11月5日
深度图异常检测:综述与新视角
专知会员服务
12+阅读 · 9月19日
《视频任意分割Segment Anything》系统性综述
专知会员服务
20+阅读 · 8月19日
【万字长文】视觉Transformer语义分割模型综述
专知会员服务
53+阅读 · 1月2日
深度强化学习理论最新进展,113页ppt
专知会员服务
73+阅读 · 2022年5月20日
专知会员服务
53+阅读 · 2021年9月3日
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
399+阅读 · 2023年3月31日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
图检索增强生成研究进展
专知会员服务
24+阅读 · 11月5日
深度图异常检测:综述与新视角
专知会员服务
12+阅读 · 9月19日
《视频任意分割Segment Anything》系统性综述
专知会员服务
20+阅读 · 8月19日
【万字长文】视觉Transformer语义分割模型综述
专知会员服务
53+阅读 · 1月2日
深度强化学习理论最新进展,113页ppt
专知会员服务
73+阅读 · 2022年5月20日
专知会员服务
53+阅读 · 2021年9月3日
相关资讯
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员