摘要—基于大规模预训练基础模型(PFMs)的生成性人工智能(AI)系统,如视觉-语言模型、大型语言模型(LLMs)、扩散模型和视觉-语言-行动(VLA)模型,已经展示了在广泛领域和情境中解决复杂且真正非平凡的AI问题的能力。特别是,多模态大型语言模型(MLLMs)通过从大量且多样的数据源中学习,能够提供丰富且细致的世界表示,从而具备广泛的能力,包括推理、进行有意义的对话、与人类及其他代理共同协作解决复杂问题,并理解人类的社会和情感方面。尽管取得了这一令人印象深刻的成就,但基于大规模数据集训练的最先进LLMs的认知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在严重限制。要使LLMs实现人类级别的通用智能,需要解决一些基础性问题——具身性、符号基础、因果性和记忆机制。这些概念更符合人类认知,并为LLMs提供了固有的人类认知特性,从而支持实现具有物理可行性、语义意义、灵活性和更强泛化能力的知识和智能。在本研究中,我们讨论了上述基础性问题,并综述了实现这些概念的最先进方法。具体而言,我们讨论了如何利用具身性、符号基础、因果性和记忆的原则,以有机的方式促进人工通用智能(AGI)的实现。

关键词—大型语言模型、具身性、符号基础、因果推理、记忆机制、人工通用智能。

1 引言

**1.1 背景

智能与一个系统(无论是生物系统还是其他类型的系统)在特定环境(或多个环境)中实现一个或多个预期目标的能力相关。一个智能系统能够推断自身的状态以及环境的状态,并能够将这些推断转化为适当的响应,从而实现预期目标。智能是高级生物体的独特特征,在开发其人工对应物——人工智能的过程中,研究人员常常借鉴生物学的概念。生物智能的一个重要特征是其普遍性,即它能够处理广泛不同的问题,适应多种环境。尤其是人类的智能,其复杂性、丰富性和多样性令人惊叹,能够轻松处理许多新颖的任务。人类智能相较于其他高级动物的普遍优越性,主要源于人类通过社会和文化构建(如艺术、规范、仪式、信仰体系和习俗)来组织和传递知识的能力 [1]。语言在这些过程中起着至关重要的作用。 尽管创造这种类型的通用智能的想法具有吸引力,但在机器中实现如此高度的复杂性和普适性是极其具有挑战性的。直到最近,取得显著成果的AI技术往往集中于特定领域或受限领域,解决单一问题(如面部识别、医学图像分割、文本翻译、股市预测、行人跟踪等)。近来,基于变分自编码器(VAE) [2] 和生成对抗网络(GAN) [3] 的生成式AI技术在革命化AI能力方面作出了巨大贡献,使得单一模型能够同时处理多种复杂任务 [4]。更近期的进展是,大规模预训练基础模型的出现,如大型语言模型(LLMs) [5]、扩散模型(DMs) [6]、视觉-语言模型(VLMs) [7] 和视觉-语言-行动(VLA)模型 [8],为复制人工智能中的通用性特征带来了现实的前景。由于它们能够处理广泛的开放领域问题 [9],[10],[11],[12],尤其是多模态大型语言模型,大规模预训练基础模型重新激发了对发展人工通用智能的兴趣 [10]。本文的主要目的是介绍支撑人工通用智能实现的认知基本原理,并综述在大型语言模型中实现这些概念的最先进技术。

**1.2 语言作为生物系统通用智能的基础

1.2.1 语言作为知识获取、表示和组织的媒介 研究表明,使用自然语言进行交流是学习现实世界通用知识最有效的方式之一 [13],虽然人类的感官和运动能力通常不优于其他高级动物(包括灵长类动物)(见 [14],[15],[16],[17],[18],[19],[20]),但人类的认知能力远远超越其他动物。人类认知能力优于其他动物王国成员,尤其是与人类最亲近的灵长类动物,这主要归因于人类使用语言的能力 [21],[22],[23]。 语言在人体内的抽象概念表示、解释和推理中发挥着核心作用 [24]。在人的社会中,语言最重要的功能之一是促进新知识的获取与共享。通过语言——无论是文学、演讲还是艺术——人类能够轻松从他人处学习,不仅通过观察或与世界的互动,还能获取其他人积累的知识。此外,语言为表示和内化知识提供了概念框架 [22]。研究表明,一个群体所使用的特定语言结构和词汇会影响他们对世界的推理和解释。实际上,语言差异(例如词汇差异)已被证明影响不同语言群体成员如何记住和描述他们的经历 [25],[26],[27],[28]。在这方面,语言可以塑造或重塑认知 [29],从而影响主体如何理解和与世界互动 [30],[31]。1.2.2 语言作为认知信息处理工具

除了创建抽象表示来组织感知信息和知识的表示外,语言在促进认知计算操作中起着根本作用 [24]。Lupyan [31] 认为,基本语言元素(如词语)为其他认知成分提供了构建意义的线索。因此,语言不仅仅是一个用于指代现实世界物体、现象和经验的静态符号集合,它还是一个操作这些符号的工具。Clark [24] 专门描述了语言在促进人类认知信息处理和推理中的六种不同方式。研究表明,语言不仅有助于晶化智能(即与表示相关的认知机制),如经验/刺激的分类 [26] 和记忆 [25],[28],还促进流动智能(即分析性问题解决技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接触多种语言框架已被证明能够拓宽个体的视野,并帮助他们以更细致的方式理解概念。由于其在生物学认知能力中的中心地位,语言被多次描述为“认知接口” [21]、“智能放大器” [35],并且人类认知本身也被描述为“语言增强的认知” [31]。

**1.3 人工通用智能的概念

虽然文献中对人工通用智能(AGI)有不同的解释 [9],[36],[37],[38],[39],[40],但这一概念通常理解为具有广泛智力能力的AI系统,能够执行高级认知任务,如感知——包括情境理解和一定程度的自我意识 [41],[42],推理、规划,以及在新情境下应用学习到的知识。AGI系统是能够在多个领域成功完成复杂和多样化的认知任务的强大模型,无需额外训练。术语“人类水平的智能” [37],[43],[44] 经常被松散地用来指代展示通用智能的AI系统。AGI不应理解为超级全知和全能的机器。这种假设级别的能力被称为人工超智能 [45],[46]。实际的AGI系统是具备有限但足够强大且灵活的知识系统,能够解决涉及传感-运动控制、感知、情境理解、常识和分析推理能力的广泛问题。对人工通用智能的这种理解,实际上反映了不仅在嵌入或学习所有相关知识和技能时的实际困难,也反映了这种方法的性能限制。此外,将人工通用智能概念化为有限范围但适应性强、灵活且可扩展,与生物智能在高级生物体(如人类)中的性质和特性是一致的。尽管文献中有各种定义,但几乎对AGI的一些定义特征达成了一致。具体而言,典型AGI系统的最重要特征是(参见例如 [9],[36],[43],[47],[48]):它能够学习并灵活应用有限且不确定的知识,解决不同情境下的广泛问题;它的学习和行动是自主且目标驱动的;它能在记忆中保留并积累相关信息,并在未来任务中重新使用这些知识;它能够理解情境并执行高级认知任务,如抽象和常识推理。 需要强调的是,AGI本质上与强AI(参见 [49],[50],[51])不同。AGI的重点是开发具有广泛认知能力、能够解决真正非平凡问题的智能系统,而强AI旨在创造极其强大的智能,不仅在功能层面模仿人类的认知能力,还具有如内在心理状态和主观经验(包括意图性、道德、情感和自我意识等) [52],[53],在意识和感知方面具有真实的人类认知特征。对此感兴趣的读者可以参考 [54],[55],[56],[57],[58],以获得关于强AI概念的更详细讨论,包括意识 [54],[56],[57],意识 [55],[57],[59] 和AI系统的道德问题 [60],[61]。

**1.4 工作的范围和大纲

在这项工作中,我们详细讨论了实现通用智能的核心原理。我们还讨论了在人工智能和LLM系统中实现这些概念的各种方法。这里讨论的概念不是实现AGI的算法解决方案,而是生物智能的一般原理和特性,这些原理和特性必须嵌入到基于大型语言模型的AI系统中 事实上,这些核心概念本质上是与算法无关的,即它们的实现并不局限于任何特定的技术或一组方法。然而,需要注意的是,特定的认知功能(如感知、推理、规划、行动等)可以通过这些通用概念和原理得到增强。本文的其余部分安排如下: 在第2节,我们概述了大型语言模型(LLM)的关键要素,这些要素使其具有强大的能力,并能够解决需要人类水平通用智能的复杂问题。 第3至第6节讨论了实现通用智能所需的重要基础性原则,包括具身性(第3节)、符号基础(第4节)、因果性(第5节)和记忆机制(第6节)。 在第7节,我们探讨了这些认知原则之间的相互关系和交互作用,并基于这些相互作用合成了一个整体的认知模型。 最后,在第8节中,我们对所讨论的概念进行了总结,并在第9节给出了结论。

成为VIP会员查看完整内容
14

相关内容

人工智能(Artificial Intelligence, AI )是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支。
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
28+阅读 · 2024年12月22日
使用有限数据微调语言模型的实用指南
专知会员服务
25+阅读 · 2024年11月18日
关于用于算法设计的大型语言模型的系统性综述
专知会员服务
39+阅读 · 2024年10月26日
大语言模型的终身学习综述
专知会员服务
67+阅读 · 2024年6月15日
《高效多模态大型语言模型》综述
专知会员服务
64+阅读 · 2024年5月20日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
73+阅读 · 2024年5月3日
《大型语言模型持续学习》综述
专知会员服务
82+阅读 · 2024年4月26日
大型语言模型图表示学习:技术的全面综述
专知会员服务
50+阅读 · 2024年2月14日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
26+阅读 · 2017年7月9日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
418+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
28+阅读 · 2024年12月22日
使用有限数据微调语言模型的实用指南
专知会员服务
25+阅读 · 2024年11月18日
关于用于算法设计的大型语言模型的系统性综述
专知会员服务
39+阅读 · 2024年10月26日
大语言模型的终身学习综述
专知会员服务
67+阅读 · 2024年6月15日
《高效多模态大型语言模型》综述
专知会员服务
64+阅读 · 2024年5月20日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
73+阅读 · 2024年5月3日
《大型语言模型持续学习》综述
专知会员服务
82+阅读 · 2024年4月26日
大型语言模型图表示学习:技术的全面综述
专知会员服务
50+阅读 · 2024年2月14日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
相关资讯
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
26+阅读 · 2017年7月9日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员