为应对数字经济中数字智能的挑战,人工智能生成内容(artificial intelligence-generated content, AIGC)应运而生。AIGC通过根据用户输入的关键字或需求生成内容,使用人工智能来辅助或取代人工内容生成。大型模型算法的发展大大增强了AIGC的能力,这使得AIGC产品成为一种很有前途的生成工具,也为我们的生活增添了便利。AIGC作为一种上游技术,在支持下游应用方面具有无限的潜力。重要的是要分析AIGC当前的功能和缺点,以了解如何在未来的应用中最好地利用它。因此,本文对AIGC的定义、基本条件、前沿功能和高级特性进行了较为全面的综述。此外,还讨论了大规模预训练模型的优势和AIGC的产业链。此外,文章还探讨了AIGC中辅助生成和自动生成之间的区别,并提供了文本生成的示例。本文还探讨了AIGC与元宇宙的潜在集成。最后指出了存在的问题和未来的发展方向。1. 引言随着Web 3.0仍处于蓬勃发展阶段[1],人工智能(AI)1已被证明是许多具有挑战性任务的有效工具,如生成内容、分类和理解。近年来,人工智能的一些进步已经帮助该技术完成了比以前更复杂的任务,例如理解输入数据,然后生成内容。人工智能生成内容(Artificial Intelligence Generated Content, AIGC)是对专业生成内容(Professional Generated Content, PGC)、用户生成内容(User Generated Content, UGC)[2]、[3]等传统内容创作方式的补充。AIGC根据AI技术生成满足用户需求的内容。它被认为是一项有前途的技术,有许多应用。因此,了解AIGC的能力和局限性对于充分挖掘其潜力至关重要。

事实上,AIGC的起源可以追溯到更早的时期。其发展历史大致可以分为三个阶段(如图1所示)。在第一个阶段,研究者通过最原始的编程技术控制计算机实现内容的输出。希勒和艾萨克森在1957年完成了世界上第一首用电脑完成的音乐《伊利亚特组曲》。然后,世界上第一个人机交互机器人Eliza诞生了。Eliza显示了通过模式匹配和智能短语搜索适当答案的能力,但不反映语义理解。然而,现在大多数人仍然将Eliza视为人工智能的灵感来源。此后二十年,为沉积堆积阶段。第二阶段假设AIGC的可用性是由于大规模数据库可用性的提高和计算设备性能的提高。《路》是世界上第一部完全由人工智能创作的小说。随后,微软还展示了一个全自动同声传译系统,该系统能够在短时间内将英语语音翻译成汉语,准确率达到[4]。然而,算法瓶颈直接限制了AIGC生成丰富内容的能力。第三阶段开始于2010年,AIGC进入快速发展阶段。Goodfellow[5]提出了一种通用对抗网络(GAN),利用现有数据生成图片。在2022年,OpenAI发布了一个新的聊天机器人模型,称为ChatGPT。它能够理解人类的语言,并像人类一样生成文本。月活跃用户在两个月内突破1亿。20235年1月,每天大约有1300万独立访问者使用ChatGPT。随着ChatGPT等产品的不断完善,AIGC显示出了巨大的应用潜力和商业价值。它引起了企业家、投资者、学者和公众的广泛关注。

目前AIGC的内容质量明显优于以前。此外,AIGC内容的类型也更加丰富,包括文本、图像、视频、代码等。表一列出了一些AIGC型号或各大科技公司开发的经典产品及其应用。ChatGPT是一个基于大型语言模型(LLM)的机器学习系统。在经过幽默的大型文本数据集的训练后,LLM不仅擅长生成合理的对话,而且还能生成引人注目的片段(如故事和文章)。由于其独特的人类反馈训练过程,ChatGPT能够更精确地理解人类的思维。谷歌声称他们即将推出的产品Bard将具有相同的功能,但更侧重于生成对话。与ChatGPT相比,Bard可以利用外部知识源,通过提供自然语言问题的答案而不是搜索结果来帮助用户解决问题。此外,微软的Turning-NLG是一个拥有170亿个参数的LLM,它适用于摘要、翻译和问答。

扩散模型是图像生成领域的前沿方法。它的简单交互和快速生成功能大大降低了进入门槛。几个流行的应用程序,如Disco Diffusion、Stable Diffusion和Midjourney,已经在社交媒体上产生了指数级的讨论和作品展示。NVIDIA是视觉生成研究的先驱。他们的产品(即StyleGAN)是一种最先进的高分辨率图像合成方法,专门用于图像生成、艺术和设计。此外,由于不同行业对生成图片的不同要求,StyleGAN为几个初创公司提供了机会。例如,Looka专注于logo和网站设计,而Lensa专注于头像生成。GAN已经能够生成极其逼真的图像。DeepMind正试图将其应用于生成视频领域。他们提出的模型称为双视频鉴别器GAN (DVD-GAN)[6],可以通过计算高效的鉴别器分解生成更长和更高分辨率的视频。DVD-GAN是对现实视频生成的探索。

为了给相关学者和研究人员提供更多的见解和思路,本文重点关注AIGC相关问题,并总结了该领域的新兴概念。此外,讨论了未来AIGC可能遇到的潜在挑战和问题,如在道德标准上缺乏全球共识,以及人工智能滥用和滥用的潜在风险。最后,对AIGC的发展和部署提出了展望。我们认为AIGC将为人类实现更便捷的服务和更高的生活质量。本文的主要贡献如下。

本文给出了AIGC的定义,并讨论了其关键条件。然后,通过阐述AIGC的3个前沿功能和6个高级特征来展示AIGC带来的巨大影响。

进一步详细描述了AIGC的产业链,并列出了AIGC中采用的大型预训练模型的几个优点。

为揭示AIGC中辅助生成和自动生成之间的差异,本文对文本生成、人工智能辅助写作和人工智能生成写作示例进行了深入的讨论和分析

从实际应用的角度,总结了AIGC的优缺点,然后介绍了AIGC与Metaverse的结合

最后,指出了AIGC目前需要解决的几个问题,并提出了未来应用的一些方向

2. 人工智能生成内容(AIGC) 内涵

人工智能生成内容(AIGC)是指由机器生成的博客、营销材料、文章、产品描述等内容。如图3所示,AIGC经历了三种不同的内容生成模式。在PGC模式下,内容由专业团队[7]、[8]生成。PGC的优点是生成的内容大多是高质量的,但生产周期长,难以满足产出的数量需求。在UGC模式下,用户可以选择多种创作工具自行完成内容生成[9]、[10]。UGC的优势在于使用这些创意工具可以降低创作的门槛和成本,提高用户参与创作的积极性。UGC的劣势在于创作者水平参差不齐,产出内容的质量难以保证。AIGC可以克服PGC和UGC在数量和质量上的不足。它有望成为未来内容生成的主要模式。在AIGC模式中,AI技术利用专业知识提高内容生成的质量,也节省了时间。

如图4所示,AIGC由三个关键部分组成: 数据、硬件和算法。音频、文本和图像等高质量数据是训练算法的基本构建块。数据量和数据源对[20]预测的准确性有至关重要的影响。硬件,特别是计算能力,构成了AIGC的基础设施。随着人们对计算能力需求的不断增长,更快、更强大的芯片以及云计算解决方案已经变得必不可少。硬件应该能够处理tb级的数据和具有数百万个参数的算法。加速芯片与云计算的结合对于提供高效运行大型模型[21]所需的计算能力起着至关重要的作用。最终,算法的性能决定了内容生成的质量,而数据和硬件的支持对于实现最优结果至关重要。

AIGC产业链是一个从上游到下游相互关联的生态系统。如图8所示,下游应用严重依赖上游产品的基础支持。数据供应商、算法机构、硬件开发机构是上游AIGC的主要组成部分。数据供应商利用网络爬行技术从新闻网站、博客和社交媒体收集大量文本。然后,利用自然语言处理技术[48]对这些野生数据进行自动标记或处理。算法机构通常由一群经验丰富的计算机科学家和数学家组成,他们具有深厚的理论背景和实践经验。他们可以开发高效准确的算法来解决各种复杂问题。硬件开发机构专注于开发专用芯片、处理器、加速器卡等硬件设备,以加速AI算法的计算速度和响应能力。

大规模人工智能模型是人工智能向通用智能发展的一个重要里程碑。大规模模型的使用明确表明AIGC具有更强的泛化能力。尽管通用数据的激增和可靠数据的缺乏带来了挑战,但深度学习完全依赖模型从数据中自动学习,从而显著提高性能。大规模模型同时具有大规模和预训练的特点,需要在为实际任务建模之前对大量广义数据进行预训练。这些模型被称为大规模预训练模型[53]。事实上,AI的大规模模型可以看作是对人类大脑的模拟,这是AI的灵感来源[54]。事实上,人脑是一个具有基本认知能力[55]的大规模模型。人类大脑可以高效地处理来自不同感官的信息,并同时执行不同的认知任务。因此,人工智能大规模模型不仅期望具有众多参与者,而且能够有效地理解多模态信息,跨模态感知,并同时在不同任务之间迁移或执行。人工智能大规模模型理解人类思维准确率的提高归功于基于人类反馈数据训练模型[56]的系统。

如图9所示,开发大规模预训练模型的过程可以分为三个主要步骤。第一步是收集解释性数据来训练监督学习策略。第二步涉及收集比较数据来训练奖励模型,这使模型能够做出更准确的预测。最后一步是收集解释性数据,使用增强学习技术优化模型。这将提高模型的性能和效率

3. 应用

随着硬件和算法的快速发展,AIGC的应用前景更加广阔。我们认为AIGC最具潜力的方向包括跨模态生成、搜索引擎优化、媒体制作、电商、电影制作等领域,如图13所示。

4. 结论

近年来,在海量高质量数据和高性能硬件的支持下,许多用于大型模型的算法得到了快速发展。这些算法不仅具有理解文本的能力,而且具有辅助或自动生成丰富内容的能力。ChatGPT等应用实例展示了AIGC技术的商业价值和应用性能,在短时间内引起了众多一线企业的广泛关注和投资。本文简要介绍了AIGC技术,并阐述了它的特点。此外,还对AIGC能力的优势和劣势进行了比较分析。然而,AIGC的发展仍然面临着许多挑战和机遇。本文还对AIGC面临的挑战和未来方向提出了见解。最后,希望本文的综述能为学术界、产业界和企业界的发展提供有益的思路,为AIGC领域的进一步探索提供有价值的思考方向和见解。

成为VIP会员查看完整内容
136

相关内容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序 [1] ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文任务。 [1] https://openai.com/blog/chatgpt/
【ChatGPT系列报告】AIGC最新应用与场景研究,95页ppt
专知会员服务
153+阅读 · 2023年5月29日
AIGC时代的多模态知识工程思考与展望
专知会员服务
132+阅读 · 2023年4月10日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
172+阅读 · 2023年2月13日
人工智能内容生成(AIGC)报告,43页ppt
专知会员服务
203+阅读 · 2022年12月26日
揭秘ChatGPT情感对话能力
专知
15+阅读 · 2023年4月9日
阿里版ChatGPT就快来了
机器之心
4+阅读 · 2023年4月4日
AIGC变革游戏领域,微软申请实时合成音乐专利
机器之心
1+阅读 · 2022年11月21日
2022稳居C位的AIGC,到底有什么用?
机器之心
8+阅读 · 2022年11月16日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
44+阅读 · 2022年9月6日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员