未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

随着ChatGPT的病毒式传播，生成式AI (AIGC，又名AI生成内容)已经成为各地的头条新闻，因为它具有分析和创建文本、图像等的能力。在如此铺天盖地的媒体报道下，我们几乎不可能错过从某个角度一瞥AIGC的机会。在人工智能从纯分析过渡到创造的时代，值得注意的是，ChatGPT及其最新的语言模型GPT-4，只是众多AIGC任务中的一个工具。ChatGPT的能力给许多人留下了深刻的印象，他们想知道它的局限性: GPT-5(或其他未来的GPT变体)能否帮助ChatGPT统一所有AIGC任务，以进行多样化的内容创建?为了回答这个问题，需要对现有的AIGC任务进行全面的回顾。**因此，我们的工作来填补这一空白，通过提供AIGC的第一眼，从它的技术到应用。现代生成式人工智能依赖于各种技术基础，从模型架构和自监督预训练到生成式建模方法(如GAN和扩散模型)。**在介绍基本技术的基础上，根据AIGC任务的输出类型，包括文本、图像、视频、3D内容等，重点介绍了AIGC任务的技术发展情况，展现了ChatGPT未来的潜力。此外，总结了它们在一些主流行业的重要应用，如教育和创意内容。讨论了目前面临的挑战，并对生成式人工智能在不久的将来可能如何发展提出了展望。 https://www.zhuanzhi.ai/paper/6deb3face466ae70f7fdf2978b47cb7b

1. 引言

生成式人工智能(AIGC，又称人工智能生成内容)已经通过ChatGPT或DALLE[343]等有趣的工具成为头条新闻，这表明人工智能的新时代正在到来。在铺天盖地的媒体报道下，普通大众有很多机会一睹AIGC的风采。然而，媒体报道的内容往往是有偏见的，有时是误导性的。此外，ChatGPT的强大功能给许多人留下了深刻的印象，他们想知道它的局限性。最近，OpenAI发布了GPT-4[307]，与之前的变体GPT-3相比，性能有了显著的提高，以及多模态生成能力，如理解图像。AIGC支持的GPT-4的强大功能给许多人留下了深刻的印象，许多人想知道它的局限性:GPT-5(或其他GPT变体)能否帮助下一代ChatGPT统一所有的AIGC任务?因此，对生成式人工智能的全面回顾是应对人工智能驱动的内容创作这一必然趋势的基础。更重要的是，我们的工作及时填补了这一空白。 **传统人工智能的目标主要是进行分类[263]或回归[227]。这种判别性方法主要用于分析现有数据。**因此，传统人工智能也经常被称为分析人工智能。相比之下，生成式AI通过创建新内容来区分。然而，生成式人工智能通常也要求模型在生成新内容之前首先理解一些现有数据(如文本指令)[40,342]。从这个角度来看，分析型AI可以被视为现代生成型AI的基础，它们之间的边界往往是模糊的。请注意，分析性AI任务也会生成内容。例如，在图像分类中生成标签内容[216]。然而，图像识别往往不被考虑在生成式人工智能的范畴内，因为标签内容的维数较低。生成式人工智能的典型任务涉及生成高维数据，如文本或图像。这些生成的内容也可以用作合成数据，以缓解深度学习对更多数据的需求[144]。第2节概述了生成式人工智能的流行及其背后的原因。 **如上所述，生成式AI与传统AI的区别在于其生成的内容。也就是说，生成式AI在概念上类似于AIGC(又称AI生成内容)[304]。**在描述基于AI的内容生成的背景下，这两个术语通常可以互换。本文为简单起见，将内容生成任务称为AIGC。例如，ChatGPT是用于AIGC任务的工具，称为聊天机器人[43]，考虑到AIGC任务的多样性，这只是冰山一角。尽管生成式AI和AIGC非常相似，但这两个术语有细微的区别。AIGC专注于内容生成的任务，而生成AI还考虑了支持各种AIGC任务开发的基本技术基础。本文将这些基础技术分为两类。第一类指的是生成式建模技术，如GAN[124]和扩散模型[156]，它们与内容创作的生成式AI直接相关。第二类人工智能技术主要由骨干架构(如Transformer[443])和自监督预训练(如BERT[87]或MAE[141])组成。其中一些是在分析AI的背景下开发的。然而，它们也成为展示竞争性能的关键，特别是在具有挑战性的AIGC任务中。考虑到这一点，第3节总结了这两类基础技术。 **在这些基本技术之上，许多AIGC任务已经成为可能，并且可以根据生成的内容类型直接进行分类。**第4、5和6节对AIGC任务的发展进行了总结。具体来说，第4节和第5节分别关注文本输出和图像输出。对于文本生成，聊天机器人[43]和机器翻译[497]是两个主要任务。一些文本生成任务也将其他模态作为输入，主要关注图像和语音。对于图像生成，两个主要任务是图像恢复和编辑[253]。最近，文本到图像(text-to-image)引起了广泛关注。除了以上两种主要的输出类型(即文本和图像)，第6节还涵盖了其他类型的输出，如视频、3D、语音等。 **随着技术的进步，AIGC的性能在越来越多的任务中得到了满足。**例如，聊天机器人过去仅限于回答简单的问题。然而，最近的ChatGPT已经被证明可以理解笑话并在简单的指令下生成代码。文本到图像曾经被认为是一项具有挑战性的任务;然而，最近的DALL-E 2[342]和稳定扩散[357]已经能够生成逼真的图像。因此，AIGC应用于行业的机会出现了。章节7介绍了AIGC在各个行业的应用，包括娱乐、数字艺术、媒体/广告、教育等。随着AIGC在现实世界中的应用，也出现了许多伦理问题等挑战。除了当前的挑战，还提出了对生成式人工智能可能如何发展的展望。本文从生成内容(即AIGC任务)的角度对生成人工智能进行了调查，涵盖其基本技术、任务级技术发展、行业应用以及社会影响。论文结构的概述如图4所示。

2. 概述

采用AI进行内容创作有很长的历史。1954年，IBM在纽约的总部首次公开演示了机器翻译系统。1957年，第一首电脑生成的音乐诞生了，名为“伊利亚克组曲”。这种早期的尝试和概念证明的成功引起了人们对人工智能未来的高度期待，这促使政府和公司向人工智能投资大量资源。然而，如此高的投资热潮并没有产生预期的产出。在那之后，一个被称为人工智能冬天的时期到来了，这极大地破坏了人工智能及其应用的发展。进入2010年代，人工智能再次流行起来，特别是在2012年AlexNet[216]用于ImageNet分类的成功之后。进入21世纪20年代，人工智能已经进入了一个新时代，不仅可以理解现有数据，还可以创建新的内容[40,342]。本节通过关注生成AI的流行及其原因来概述它。 3 AIGC背后的基本技术

本文将AIGC视为一组用人工智能方法生成内容的任务或应用。在介绍AIGC之前，我们首先了解AIGC背后的基本技术，这些技术在技术层面上属于生成式人工智能的范围。本文将基本技术大致分为两类:生成技术和创造技术。具体来说，创建技术是指能够生成各种内容的技术，例如GAN和扩散模型。通用技术不能直接生成内容，但对AIGC的开发至关重要，例如Transformer架构。在本节中，我们将简要总结AIGC所需的技术。

4 AIGC任务:文本生成

NLP研究自然语言，有两个基本任务:理解和生成。这两个任务并不是完全独立的，因为适当文本的生成通常依赖于对一些文本输入的理解。例如，语言模型通常将文本序列转换为另一个文本序列，这构成了文本生成的核心任务，包括机器翻译、文本摘要和对话系统。除此之外，文本生成向两个方向发展:可控性和多模态。第一个方向是生成内容。 4.1 文本到文本

4.1.1聊天机器人对话系统(聊天机器人)的主要任务是在人类和机器之间提供更好的交流[85,299]。根据应用中是否指定任务，对话系统可以分为两类:(1)任务导向型对话系统(TOD)[323,502,533]和(2)开放域对话系统(OOD)[4,532,541]。具体来说，面向任务的对话系统专注于任务完成和解决特定问题(例如，餐厅预订和机票预订)[533]。同时，开放域对话系统通常是数据驱动的，目的是在没有任务或域限制的情况下与人类聊天[353,533]。面向任务的系统。面向任务的对话系统可以分为模块化系统和端到端系统。模块化方法包括四个主要部分: 自然语言理解(NLU)[395,409]，对话状态跟踪(DST)[382,462]，对话策略学习(DPL)[169,483]和自然语言生成(NLG)[25,99]。在用NLU将用户输入编码为语义槽后，DST和DPL决定下一个动作，然后由NLG转换为自然语言作为最终响应。这四个模块旨在以可控的方式产生响应，并可以单独优化。然而，有些模块可能是不可微的，单个模块的改进可能不会导致整个系统的改进[533]。为了解决这些问题，端到端方法要么通过使每个模块可微[139,162]来实现端到端训练管道，要么在系统中使用单个端到端模块[498,531]。模块化系统和端到端系统仍然存在一些挑战，包括如何提高DST[208,312]的跟踪效率，以及如何提高具有有限数据的端到端系统的响应质量[145,148,282]。

**Open-domain系统。**开放域系统旨在与没有任务和域限制的用户聊天[353,533]，可以分为三种类型:基于检索的系统，生成系统和集成系统[533]。基于检索的系统总是从响应语料库中找到现有的响应，而生成系统可以生成可能不会出现在训练集中的响应。集成系统通过选择最佳响应或用生成模型优化基于检索的模型[378,533,546]，将基于检索的方法和生成的方法相结合。之前的工作从多个方面改进了开放域系统，包括对话上下文建模[105,181,250,282]，提高响应一致性[9,117,251,483]和多样性[31,211,335,408]。最近，ChatGPT(参见图12)取得了前所未有的成功，也属于开放域对话系统的范围。除了回答各种问题，ChatGPT还可以用于论文写作、代码调试、表生成等。

4.1.2 机器翻译

顾名思义，机器翻译自动将文本从一种语言翻译为另一种语言171,7497。随着深度学习取代基于规则的[108]和基于统计的[212,213]方法，神经机器翻译(NMT)需要最少的语言专业知识[399,451]，并因其在句子中捕获长依赖的能力更高[62]而成为一种主流方法。神经机器学习的成功主要归功于语言模型[34]，它以前一个词为条件来预测一个词出现的概率。Seq2seq[413]是将编码器-解码器RNN结构[191]应用于机器翻译的开创性工作。当句子变长时，Seq2seq[413]的性能会变差，针对这一问题，[24]中提出了一种注意力机制，通过额外的单词对齐来帮助翻译长句子。随着越来越多的关注，2006年，与谷歌的基于短语的生成系统相比，谷歌的NMT系统帮助减少了约60%的人工翻译工作量，弥补了人类翻译和机器翻译之间的差距[475]。基于CNN的架构也已被研究用于NMT，并进行了多次尝试[190,192]，但未能取得与由注意力[24]增强的RNN相当的性能。Convolutional Seq2seq[120]使CNN与注意力机制兼容，表明CNN可以取得与RNN相当甚至更好的性能。然而，这种改进后来被另一种称为Transformer[443]的架构超越。使用RNN或Transformer作为架构，NMT通常使用自回归生成模型，其中贪婪搜索只考虑在推理过程中预测下一个工作概率最高的单词。NMT的一个趋势是在低资源设置中取得令人满意的性能，其中模型是用有限的双语语料库训练的[458]。缓解这种数据稀缺的一种方法是利用辅助语言，如使用其他语言对进行多语言训练[187,383,547]，或以英语作为中间中间中间语言[58,350]的中间中间语言转换[58,350]。另一种流行的方法是利用预训练语言模型，如BERT[87]或GPT[338]。例如，在[359]中显示，使用BERT[87]或RoBERTa[259]初始化模型权重可以显著提高英德翻译性能。在不需要微调的情况下，GPT家族模型[40,338,339]也显示出具有竞争力的性能。最近，ChatGPT在机器翻译中显示了其能力，与商业产品(如谷歌翻译)相比表现出了竞争力[182]。

4.2多模态文本生成 4.2.1图像到文本。图像到文本，也称为图像描述，指的是用自然语言描述给定图像的内容(参见图14)。该领域的一项开创性工作是神经图像描述(NIC)[447]，它使用CNN作为编码器来提取输入图像的高级表示，然后将这些表示输入RNN解码器以生成图像描述。这种两步编码器-解码器架构已被广泛应用于后期关于图像描述的工作中，我们将其分别称为视觉编码[407]和语言解码。本文首先回顾了图像描述的两个阶段的历史和最近的趋势。 **视觉编码。**提取图像的有效表示是视觉编码模块的主要任务。从NIC[447]开始，使用GoogleNet[417]提取输入图像的全局特征，多个工作采用各种CNN骨干网络作为编码器，包括[195]中的AlexNet[216]和[92,272]中的VGG网络[393]。然而，语言模型很难生成具有全局视觉特征的细粒度标题。以下工作介绍了细粒度视觉特征的注意力机制，包括对CNN特征的不同网格[56,264,463,484]或不同视觉区域[16,200,518]的注意力。另一个分支工作[500,536]采用图神经网络来编码不同区域之间的语义和空间关系。然而，人类定义的图结构可能会限制元素之间的相互作用[407]，这可以通过连接所有元素的自注意力方法231,501,530来缓解。 **语言解码。**在图像描述中，语言解码器通过预测给定单词序列的概率来生成标题[407]。受NLP领域突破的启发，语言解码器的骨干从RNN[200, 264, 447, 456]发展到Transformer[132, 149, 231]，实现了显著的性能提升。除了视觉编码器-语言解码器架构之外，一个分支工作采用类似BERT的架构，在单个模型的早期阶段融合图像和标题[244,526,542]。例如，[542]采用单个编码器来学习图像和文本的共享空间，首先在大型图像-文本语料库上进行保留并进行微调，特别是针对图像描述任务。 4.2.2 语音到文本生成

语音到文本生成，也称为自动语音识别(ASR)，是将口语，特别是语音信号转换为相应文本的过程173,347。ASR有许多潜在的应用，如语音拨号、计算机辅助语言学习、字幕生成以及Alexa和Siri等虚拟助手，自20世纪50年代以来，ASR一直是一个令人兴奋的研究领域[194,270,345]，并从隐马尔可夫模型(HMM)[188, 225]发展到基于DNN的系统[75,127,152,297,473]。

**各种研究主题和挑战。**已有工作对ASR系统进行了多方面的改进。多个工作讨论了语音信号的不同特征提取方法[270]，包括时间特征(如离散小波变换[287,419])和谱特征(如最常用的梅尔频率倒谱系数(MFCC)[61,69,429])。另一个工作分支将系统管道[355]从多模型[268]改进为端到端[161,233,234,296,453]。具体来说，多模型系统[268,270]首先学习声学模型(例如，将特征映射到音素的音素分类器)，然后学习单词输出的语言模型[355]。另一方面，端到端模型直接从音频输入预测转录[161,233,234,296,453]。尽管端到端模型在各种语言和方言中取得了令人印象深刻的性能，但仍然存在许多挑战。首先，它们在资源不足的语音任务中的应用仍然具有挑战性，因为获取大量标注的训练数据是昂贵和耗时的[104,355]。其次，这些系统可能很难处理具有特殊词汇表外单词的语音，并且可能在训练数据上表现良好，但可能对新的或未见过的数据[104,334]泛化能力不强。此外，训练数据中的偏差也会影响有监督ASR系统的性能，导致对某些人群或语音风格[35]的准确性较差。 **资源受限的语音任务。**研究人员致力于研究克服ASR系统挑战的新技术，其中主要讨论了语音资源不足的问题，即缺乏语音受损的数据[355]。一个工作分支[321,346]采用多任务学习来优化不同任务的共享编码器。与此同时，自监督ASR系统最近成为一个不依赖大量标记样本的活跃研究领域。具体来说，自监督ASR系统首先在大量未标记语音数据上预训练模型，然后在较小的标记数据集上进行微调，以促进ASR系统的效率。它可以应用于低资源语言，处理不同的说话风格或噪声条件，并转录多种语言[23,71,255,492]。

5 AIGC任务:图像生成

与文本生成类似，图像生成的任务也可以根据其输入控制分为不同的类别。由于输出是图像，一个简单的控制类型是图像。图像类型的控制引起了大量的任务，如超分辨率、去模糊、编辑、翻译等。图像类型控件的一个限制是缺乏灵活性。相比之下，文本引导控制可以根据人类的自由意志生成任何风格的任何图像内容。文本到图像属于跨模态生成的范畴，因为输入文本与输出图像是不同的模态。 5.1图像到图像

5.1.1图像恢复图像恢复解决了一个典型的逆向问题，即从相应的退化版本恢复干净的图像，示例如图16所示。由于退化图像与纯净图像之间存在无限种可能的映射关系，因此这种反问题的病态性质是非平凡的。退化有两个来源:原始图像中的信息缺失和在干净的图像中添加了一些不受欢迎的东西。前一种退化包括拍摄一张低分辨率的照片，从而丢失一些细节信息，裁剪某个区域，并将彩色图像转换为灰色形式。恢复任务依次是图像超分辨率、修复和着色。另一类恢复任务旨在消除不受欢迎的干扰，如去噪，去雾，去模糊等。早期恢复技术主要使用数学和统计建模来消除图像退化，包括用于去噪的空间滤波器[123,392,529]，用于去模糊的核估计[485,489]。最近，基于深度学习的方法[42,59,93,177,248,252,481,486]由于其通用性和比传统方法优越的视觉质量，在图像恢复任务中发挥了主导作用。CNN被广泛用于图像恢复[94,411,442,459]中作为构建块，而最近的工作探索了更强大的transformer架构，并在各种任务中取得了令人印象深刻的性能，如图像超分辨率[247]、着色[218]和修复[240]。也有一些工作将CNN和Transformer的强度结合在一起[103,534,535]。 **复原的生成方法。**典型的图像恢复模型在重建损失的情况下学习源(退化)图像和目标(干净)图像之间的映射。根据任务的不同，可以通过对干净的图像进行各种扰动(包括分辨率下采样和灰度变换)来生成训练数据对。为了保持更多的高频细节并创建更真实的图像，生成模型被广泛用于修复，例如超分辨率[223,460,528]和修复[42,252,298]中的GAN。然而，基于gan的模型通常遭受复杂的训练过程和模式崩溃。这些缺点和DMs的大规模流行导致许多最近的工作将DMs用于图像恢复任务[199,232,265,349,367,369]。像GAN和DM这样的生成方法也可以从单个退化图像中产生多种不同的干净输出。 **从单任务到多任务。**现有的大多数复原方法针对不同形式的图像退化训练单独的模型。这限制了它们在实际用例中的有效性，在实际用例中，图像被退化的组合损坏。为了解决这个问题，一些研究[6,207,391,540]引入了多失真数据集，这些数据集结合了不同强度的各种退化形式。一些研究[207,258,505,509]提出了不同的恢复模型，其中不同的子网络负责不同的退化。另一项工作[228,242,391,410,540]依赖注意力模块或引导子网络来帮助恢复网络通过不同的退化，允许单个网络处理多个退化

5.1.2 图像编辑

图像编辑是指修改图像以满足某种需求，如风格迁移(见图17)，而图像恢复是为了增强图像质量。从技术上讲，一些图像恢复任务，如着色，也可能被视为图像编辑，因为将添加颜色视为所需的需求。现代相机通常具有基本的编辑功能，如锐度调整[524]、自动裁剪[525]、红眼去除[396]等。然而，在AIGC中，我们对高级图像编辑任务更感兴趣，这些任务以各种形式改变图像语义，如内容、样式、对象属性等。 5.2 多模态图像生成

文本到图像(T2I)任务旨在从文本描述生成图像(见图??)，可以追溯到从标签或属性[405,495]生成图像。AlignDRAW[271]是一项从自然语言生成图像的开创性工作，令人印象深刻的是，AlignDRAW[271]可以从新颖的文本中生成图像，如“一个停车标志在蓝天中飞翔”。最近，文本到图像领域的进展可以分为三个分支，包括基于GAN的方法，自回归方法和基于扩散的方法。