随着大型语言模型(LLM)的快速发展及其模拟人类认知和行为的能力逐步提高,基于 LLM 的框架和工具应运而生,并因其在认知、决策以及社会交互等传统由人类执行的任务中的表现而被评估和应用。本综述全面探讨了以人为中心的 LLM 能力,重点研究其在个人任务(LLM 作为单个人类的替代者)和集体任务(多个 LLM 协作以模拟群体动态)中的表现。
我们首先评估了 LLM 在推理、感知和社会认知等关键领域的能力,并将其与人类技能进行对比。接着,我们深入探讨了 LLM 在行为科学、政治科学和社会学等以人为中心的领域中的实际应用,评估其在复制人类行为和互动方面的有效性。最后,我们明确了当前存在的挑战和未来研究方向,例如提高 LLM 的适应性、情商和文化敏感性,同时解决其固有的偏见,并优化人机协作框架。
本综述旨在从以人为中心的视角出发,提供对 LLM 的基础性理解,揭示其当前能力及未来发展的潜力。
关键词: 大型语言模型,以人为中心的计算。
1 引言
随着大型语言模型(LLM)[1, 2](如 OpenAI 的 GPT 系列 [3, 4] 和 Meta 的 LLaMA [5, 6])不断发展,其模拟、分析和影响人类行为的能力正以前所未有的速度提升。这些模型不仅能够处理和生成类人文本,还能在许多场景下完成与人类表现相当的认知任务,为理解人类认知、决策和社会动态提供了全新工具。 因此,本综述旨在从以人为中心的视角对 LLM 进行全面评估,重点研究其在模拟、补充和增强人类认知与行为(包括个人和群体层面)的能力。尽管 LLM 起初主要应用于计算机科学和工程领域 [7, 8],但随着其在模拟类人推理、决策和社会互动方面的日益精进,其用途逐渐扩展至以人为核心的领域。研究人员借助这些模型解决了许多过去因过于复杂或抽象而无法通过计算分析解决的问题。例如,在政治学领域,LLM 被用于分析政治话语、检测偏见以及建模选举结果 [9];在社会学领域,它们帮助理解社交媒体对话、公众情绪和群体行为 [10];在心理学领域,它们用于建模人类认知和决策过程 [11]。此外,LLM 在语言学领域也引发了革命,使大规模的语言分析成为可能,从语法到语义再到语用 [12];在经济学领域,它们能对政策与社会结果之间的复杂互动进行建模 [13]。 为系统化探讨这一主题,本文分为两个主要部分。首先,我们评估以人为中心的 LLM 的认知、感知、社会和文化能力。本部分研究 LLM 在推理、感知、情感意识和社会理解等常与人类认知相关的任务中的表现,分析其在结构化推理、模式识别和创造力等方面的优势,并指出其在实时学习、共情能力以及复杂多步骤逻辑处理等方面的不足。通过将 LLM 的表现与人类标准进行对比,我们揭示了其优劣所在以及改进方向。 其次,我们探讨 LLM 在以人为中心的实际应用领域中的表现,关注其在传统需要人类参与的现实场景中的应用。本部分分为两类研究:以个体为中心和以群体为中心。个体研究关注 LLM 在执行通常由单个人类完成的任务(如决策、问题解决或内容创作)中的表现,而群体研究则探索多个 LLM 如何协作以模拟群体行为、互动或协作任务,提供对社会动态、组织行为和多代理协作的洞见。在这两种背景下,我们分析了诸如基本提示、多人提示、多代理提示及微调等方法,以及指导这些应用的理论框架,包括博弈论、社会学习理论和心理理论等。 最终,本文旨在深入理解 LLM 如何更好地契合人类行为和社会背景,明确其优势与改进空间。通过这样做,我们为提升 LLM 的效能、伦理性及现实适用性提供了新的见解,无论是用于个体还是群体的以人为中心的研究与实际应用。
第 2 节概述了以人工智能为动力的以人为中心的研究与 LLM 的发展;第 3 节评估了 LLM 在认知、感知、分析、执行和社会技能方面的能力;第 4 节讨论了 LLM 在不同跨学科场景中的应用,既能促进模型开发,也能辅助人类任务;第 5 节探讨了开放性挑战并提出未来研究方向;第 6 节总结了关键洞见,强调了跨学科协作的重要性,以增强 LLM 对人类行为的理解。