摘要——随着大规模语言模型(Large Language Model, LLM)的普及,世界模型(World Model, WM)的概念近年来在人工智能研究领域,尤其是人工智能代理(AI agents)的背景下,引起了极大的关注。可以说,WM正逐步演变为构建AI代理系统的重要基础。WM旨在帮助代理预测环境状态的未来演变,或者帮助代理填补缺失信息,从而使其能够规划行动并安全地运行。WM的安全属性在其在关键应用中的有效使用中起着关键作用。在本研究中,我们基于全面的文献调查和预期应用领域的分析,从可信性和安全性的角度对当前最先进的WM技术的影响进行了回顾和分析。我们对当前先进的WM进行了深入分析,并提出技术研究挑战及其影响,以号召研究社区共同努力改进WM的安全性和可信性。 关键词——人工智能安全、大规模语言模型(LLM)、具身人工智能(Embodied AI)、世界模型(World Model)、智能代理(Intelligent Agents)
近年来,基于Transformer的生成模型取得了快速进展[1],其能力已从自然语言处理(Natural Language Processing, NLP)扩展到多模态应用[2]。前沿模型如SORA[3]、LINGO-1[4]和GAIA-1[5]展示了前所未有的生成高度逼真视频的能力,这表明通过仅在视频和语言数据集上的训练,这些模型已初步掌握了基本的物理和时空连续性等世界性原理。这一新兴能力为研究开辟了新途径,因为理解世界模型对于开发下一代智能系统至关重要。 数据驱动的世界模型概念最早于2017年提出,基于递归神经网络(Recurrent Neural Network, RNN)或长短期记忆网络(Long-Short-Term Memory, LSTM)架构[6]。尽管这些早期尝试在相对简单的模拟游戏环境中展现了一定的潜力,但其表现受限于序列长度、内存和并行能力等约束。Transformer方法的出现带来了显著改进,最近的实验结果显示了令人鼓舞的进展。因此,许多当代AI代理架构已将世界模型作为核心组成部分[7]。 我们的研究集中于针对具身AI代理(embodied AI agents)的一类特定世界模型。这些代理能够与物理世界交互。我们从安全性角度审视这些世界模型,填补当前研究中的关键空白。自回归生成模型固有的缺陷(如幻觉现象)[8][9],在机器人和自动驾驶系统(Autonomous Driving Systems, ADS)等安全关键应用中带来了显著风险[10],并引发了广泛争议[11]。尽管目前对世界模型的关注度很高,但我们发现针对具身AI代理的世界模型在安全性方面缺乏全面分析。本文旨在通过简明而深入的回顾与研究填补这一空白,并从安全性视角进行详细分析。最后,我们确定了高优先级的研究方向。 本文的主要贡献总结如下:
本文结构安排如下:第二节对当前世界模型的定义进行阐述,并深入探讨和分类当前最先进的方法。我们回顾了现代世界模型在不同应用背景下的发展路径;第三节从批判性视角分析了当前方法在安全性方面的不足;第四节提出了一项研究议程,重点强调提高世界模型安全性的高优先级课题。通过解决这些关键问题,我们希望为当前关于具身AI中的世界模型的讨论带来清晰性,并促进更安全、更可信的智能系统的发展。