游戏智能体的发展在推进向人工通用智能(AGI)的道路上扮演着至关重要的角色。大型语言模型(LLMs)及其多模态对应物(MLLMs)的进展为在复杂的电脑游戏环境中赋予游戏智能体类似人类的决策能力提供了前所未有的机会。本文从一个全面的视角对基于LLM的游戏智能体进行了综述。首先,我们介绍了基于LLM游戏智能体的概念架构,围绕六个基本功能组件:感知、记忆、思考、角色扮演、行动和学习。其次,我们调研了文献中记录的现有代表性的基于LLM游戏智能体,这些智能体在方法论和跨六大游戏类型的适应性灵活性方面进行了探讨,包括冒险、沟通、竞争、合作、模拟以及制作与探索游戏。最后,我们展望了这一新兴领域未来研究和发展的方向。维护并可访问的相关论文精选列表位于:https://github.com/git-disl/awesome-LLM-game-agent-papers。

智能在代理与环境的互动中以及作为感觉运动活动的结果而出现。 ——体现认知假说 [1] 大型语言模型(LLMs),如ChatGPT [2]所示,代表了自然语言理解(NLU)和生成性人工智能(Gen-AI)中的一个重要里程碑。通过在包含数百亿参数的大量多样化网络来源上进行生成性训练,LLMs展示了从庞大文本语料库中概括知识的惊人能力,并以接近人类水平的NLU表现展示对话智能。多模态LLMs(MLLMs),如GPT-4V [3]和Gemini [4]的出现,标志着另一个里程碑,使LLMs能够感知和理解视觉输入。我们推测,LLM技术的成功为追求类人人工通用智能(AGI)提供了前所未有的机会:以前认为仅限于人类的认知能力,如推理、规划和反思,以及自我控制、自我理解和自我改进的程度,现在通过适当提示集成了内置认知智能的LLMs来实现。

我们将基于LLM的智能体(LLMA)定义为一个智能实体,它使用LLMs1作为执行类人决策过程的核心组件 [5]。尽管LLMAs能够进行类似人类的认知处理,但现有LLMAs与类人AGI之间的区别是显而易见的:当前的LLMAs依赖于解码和概括来自预训练数据的预先存在的知识 [6],而AGI能够通过在现实世界中的实验和经验发现和学习新知识 [7; 8]。受到人类婴儿智力发展过程的启发,体现认知假说 [1] 假设智能体的智能源于观察和与其环境的互动,即,将智能体植入一个集成了物理、社会和语言经验的世界对于促进有利于发展类人智能的条件至关重要。

数字游戏被认为是培养AI智能体的理想环境,因为它们具有复杂性、多样性、可控性、安全性和可复制性。从经典的国际象棋和扑克游戏 [9; 10; 11] 到现代视频游戏如Atari游戏 [12]、星际争霸II [13]、Minecraft [14] 和DOTA II [15],长期以来一直是推进AI研究的工具。与基于传统强化学习(RL)的智能体 [10; 16; 17; 18] 不同,这些智能体通过行为级策略学习做出决策,目标是最大化预期奖励,构建能够运用认知能力获得游戏玩法基本洞察力的基于LLM的游戏智能体(LLMGAs)可能更贴近AGI的追求。 先前关于LLMs [19; 20; 21] 或LLMAs [22; 23; 24] 的综述论文主要关注审查行业和学术研究团队开发的现有LLMs,以及LLMAs的一般应用,较少关注游戏代理领域。同时期的综述论文 [25; 26] 显著强调了游戏开发,并涵盖了有限数量的LLMGAs出版物。为了弥补这一差距,本文试图对LLMGAs的最新发展进行全面和系统的综述。具体而言,本综述分为三个相辅相成的部分:首先,我们提供了一个统一的参考框架,在其中我们描述了构建LLMGAs所需的基本模块,涵盖六个核心功能组件:感知、记忆、思考、角色扮演、行动和学习。其次,我们介绍了一个将现有文献分类为六个游戏类别的分类法,包括冒险、竞争、合作、模拟和制作与探索。对于每个类别,我们描述了技术挑战、支持的游戏环境,以及常用的优化策略。在第三部分和最后一部分,我们设想LLMGAs未来进步的不同方向。

总之,这篇综述论文作为对LLMGAs文献的全面回顾,提供了六个游戏类别的分类,以增强理解并促进各种LLMGAs的开发和评估。它旨在促进这一新兴研究领域的进步,并激发LLMGAs的研究和开发中的进一步创新。鉴于这是一个新兴且蓬勃发展的研究领域,这篇综述论文将持续更新,以跟踪最新研究。维护并可访问的相关文献精选列表位于https://github.com/git-disl/awesome-LLM-game-agent-papers。

统一的LLMGAs架构

图1提供了LLMGAs的概念架构,包括六个基本功能组件及其工作流程:对于每个游戏步骤,感知模块捕获游戏状态信息,为智能体理解其当前环境提供必要的数据。思考模块处理感知到的信息,基于推理、规划和反思生成思考,以便做出明智的决策。记忆作为一个外部存储,过去的经验、知识和精心挑选的技能被保留,并可以为将来使用而检索。角色扮演模块使智能体能够在游戏中模拟特定角色,展示与每个角色的特征和目标一致的可信行为。行动模块将生成的文本决策转换为可执行的动作,允许智能体有效地与游戏元素互动和操纵。学习模块通过在游戏环境中积累的经验和互动,不断改善智能体的认知和游戏技能。

成为VIP会员查看完整内容
53

相关内容

《多模态大型语言模型的幻觉现象》综述
专知会员服务
26+阅读 · 4月30日
《大型语言模型持续学习》综述
专知会员服务
38+阅读 · 4月26日
《大型多模态智能体》综述
专知会员服务
65+阅读 · 2月26日
《基础模型在现实世界机器人应用》综述
专知会员服务
44+阅读 · 2月11日
基于大型语言模型的多智能体:进展与挑战综述
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
46+阅读 · 2月2日
多智能体学习中合作的综述
专知会员服务
62+阅读 · 2023年12月12日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
基于模型的强化学习综述
专知
17+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
19+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
20+阅读 · 2022年6月30日
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
情感计算综述
人工智能学家
31+阅读 · 2019年4月6日
深度学习与计算机视觉任务应用综述
深度学习与NLP
49+阅读 · 2018年12月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月2日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
54+阅读 · 2023年3月26日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《多模态大型语言模型的幻觉现象》综述
专知会员服务
26+阅读 · 4月30日
《大型语言模型持续学习》综述
专知会员服务
38+阅读 · 4月26日
《大型多模态智能体》综述
专知会员服务
65+阅读 · 2月26日
《基础模型在现实世界机器人应用》综述
专知会员服务
44+阅读 · 2月11日
基于大型语言模型的多智能体:进展与挑战综述
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
46+阅读 · 2月2日
多智能体学习中合作的综述
专知会员服务
62+阅读 · 2023年12月12日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
相关资讯
基于模型的强化学习综述
专知
17+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
19+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
20+阅读 · 2022年6月30日
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
情感计算综述
人工智能学家
31+阅读 · 2019年4月6日
深度学习与计算机视觉任务应用综述
深度学习与NLP
49+阅读 · 2018年12月18日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员