生成式人工智能是指能够生成文本、图片、声音、视频及代码等多样化内容的智能技术,近年来取得了显著进展。基于预训练大模型的智能生成技术已具备相当程度的实用性,而且展现出来生成和推理等关键能力,在多个领域的实际任务中发挥了关键作用,产生了深远的影响。近日,中国科学院自动化研究所赫然研究员等在《国家科学评论》(National Science Review, NSR)发表综述文章,梳理了生成式人工智能的发展脉络(见下图)。赫然为通讯作者,其他作者还包括自动化所曹杰副研究员,以及自动化所及南京大学谭铁牛院士。生成式人工智能的发展进程
本文将生成式人工智能的发展过程归纳为四个阶段,并以当时代表性的技术命名:第一阶段是基于规则的生成式系统;第二阶段是基于模型的生成式算法;第三阶段是深度生成式算法;第四个阶段是预训练基础模型。文章分析了各阶段之间的关键联系与区别,探讨了生成式人工智能发展的机遇与挑战。基于规则的生成式系统兴起于 20 世纪 50 年代,在生成式人工智能技术发展的早期阶段扮演了至关重要的角色,在聊天机器人、机器翻译系统等应用场景中取得了一定成果。从技术本质而言,此类方法(见下图)可视为执行人工设计规则的计算机程序,具备两大特征:其一,高度依赖人类知识与经验;其二,生成过程具备透明性与可解释性。这类方法在灵活性与扩展性存在局限,主要适用于场景固定、模式单一的任务。
基于模型的生成式算法采用了不同的设计范式(见下图)。其基本流程为:首先依据统计学、物理学等相关理论构建生成模型,学习数据的内在分布规律,然后借助采样算法完成数据生成过程。在 20 世纪 80 年代,神经网络模型的理论体系已逐步走向成熟,在文本生成、语音生成等关键任务中取得了阶段性成功,为后续深度模型的发展奠定了坚实基础。
随着算力的迅猛提升,深度生成式算法的实际性能在2012年后实现了质的飞跃,生成内容达到类人水平。这些方法仍属于基于模型的生成式算法范畴,但其模型在深度与广度上均得到了极大拓展,并且广泛采用大规模训练数据进行模型训练。此阶段的代表性成果涵盖生成对抗网络、扩散模型等算法,以及 Transformer 等神经网络架构的发展。自 2018 年起,生成式预训练大模型在文本生成与理解领域率先取得重大突破,迅速拓展至图像生成、音频生成等经典任务范畴,并在算法生成、决策生成等新兴任务领域也取得显著突破。生成式预训练大模型已具备强大的语义理解能力,能够精准接收并解析人类语言指令(见下图),同时展现出自我反思、逻辑推理等高级智能特性,应用于多学科交叉领域的复杂任务场景。当前,生成式人工智能技术仍面临一系列严峻挑战,本文将其归纳为幻觉问题、可解释性问题、算力瓶颈问题以及安全性问题四大类,并针对这些问题的潜在解决方案展开了展望与探讨。