Yann LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽象、更长期的预测。LeCun 和 Meta AI 希望分层 JEPA 可以通过观看视频和与环境交互来了解世界是如何运行的。
可以建模世界如何运行的 AI
LeCun 说,人和动物似乎能够通过观察和难以理解的少量互动,以一种独立于任务的、无监督的方式,学习大量关于世界如何运行的背景知识。可以假设,这些积累起来的知识可能构成了常识的基础。常识可以被看作是世界模型的集合,可以告诉我们什么是大概率会发生的,什么是可能发生的,以及什么是不可能发生的。
这使得人类即使身处不熟悉的环境也能有效地制定计划。例如,文章开头提到的那个青少年可能以前没有在雪地上开过车,但他知道雪地开车容易打滑,不能开得太猛。
常识不仅能让动物预测未来的结果,还能填补时间或空间上缺失的信息。当司机听到附近金属碰撞的声音时,他立即就能知道发生了事故,即使没有看到涉事车辆。
人类、动物和智能系统使用世界模型的观点可以追溯到几十年前的心理学以及控制和机器人等工程领域。LeCun 提出,当今 AI 面临的最重要的挑战之一是设计学习范式和架构,让机器以一种自监督的方式学习世界模型,然后利用这些模型进行预测、推理和规划。他的大纲融合了各种学科的观点,如认知科学、系统神经科学、最佳控制、强化学习和「传统」AI,并将它们与机器学习中的新概念相结合,如自监督学习、联合嵌入架构。
一种自主智能体系架构的提出
LeCun 提出了一个由六个独立模块组成的架构。假设每个模块都是可微的,因为它可以很容易地计算某个目标函数相对于自己的输入的梯度估计,并将梯度信息传播到上游模块。
上图是一种自主智能系统的架构,配置器(Configurator)从其他模块获得输入(图中省略了这些箭头)。
配置器(Configurator)模块负责执行控制(executive control):给定要执行的任务,可以通过调整这些模块的参数来预先配置感知模块(perception module)、世界模型(world model)、成本(cost)和当前任务的 actor。
感知模块(Perception module)接收来自传感器的信号并估计当前世界的状态,对于给定的任务,只有一小部分感知到的世界状态是相关和有用的。配置器模块启动感知系统,从感知中提取相关信息,完成手头的任务。
世界模型(World model)构成了架构中最复杂的部分。它的作用是双重的:(1)估计感知未提供的关于世界状态的缺失信息;(2)预测合理的未来世界状态。
世界模型可以预测世界的自然进化,或预测由 actor 模块提出的一系列动作所导致的未来世界状态。世界模型是一种与当前任务相关的世界部分的模拟器。由于世界充满了不确定性,模型必须能够代表多种可能的预测。比如接近十字路口的司机可能会减速,以防另一辆接近十字路口的车没有在停车标志处停下来。
成本模块(Cost module)计算单个标量的输出,该输出预测智能体的不适(discomfort)程度。它由两个子模块组成:内在成本(intrinsic cost)是硬连接、不可变的(不可训练的),并计算直接的不适(比如对智能体的损害、违反硬编码的行为约束等);批判(critic)是可训练的模块,预测内在成本的未来值。智能体的最终目标是最小化长期的内在成本。
「这就是基本的行为驱动力和内在动机所在,」LeCun 表示。因此它将考虑到内在成本,比如没有浪费能源,以及手头任务的具体成本。因为成本模块是可微的,所以成本梯度可以通过其他模块反向传播,用于规划、推理和学习。
actor 模块计算动作序列的提议。「actor 可以找到一个最优的动作序列,最小化预估的未来成本,并以最优序列输出第一个动作,这种方式类似于传统的最优控制。」LeCun 说。
短期记忆模块(Short-term memory module)跟踪当前和预测的世界状态以及相关成本。