我们如何在物理世界中构建智能具身体智能体?此类智能体应能够在面对前所未见的任务时自主完成目标,同时应对环境中的外部扰动,以及诸如光照变化、多样的传感器输入、与其他智能体或物体的意外交互等因素的组合变化。 构建此类智能体的一个重要子目标,是开发能够稳健泛化的模型——不仅能泛化到与训练阶段类似的任务分布,也能泛化到全新的、从未见过的任务分布。这一目标突破了标准机器学习方法的假设,即训练分布与测试分布相同。为达成该目标,本论文将展示如何通过对每个任务的所有可能预测估计能量场景(energy landscape),并将准确预测分配较低能量的方式,来实现某些形式的泛化能力。 这种建模方法将预测过程形式化为能量场景中的搜索过程,从而能够通过适应能量场景实现对新约束条件的零样本(zero-shot)泛化。此外,这种方法还使我们能够通过组合多个已学习的能量场景,以零样本的方式泛化到全新任务分布。 本论文首先提出一套训练能量场景的方法及其代数结构,从而实现能量场景的组合与发现。接着,我们展示了能量场景如何以多种方式进行组合,包括逻辑运算、概率分布、图模型、约束表示以及层级结构组合等,使模型能够在视觉、决策、多模态推理与科学计算等多个场景中实现高效泛化。 人工智能的一个重要目标是构建能够在新环境中自主运行并完成众多未见任务的具身智能体。要实现这一目标,智能体不仅需要在与训练时任务分布相似的环境中运行,还需具备在预测时泛化到全新任务分布的能力。 近年来,机器学习技术在人工智能的诸多子领域,如计算机视觉和自然语言处理中取得了显著进展。然而,这些方法普遍基于统计机器学习原理,默认训练与预测分布相同。为了覆盖具身智能体可能遭遇的各种情境,现有工作通常倾向于收集规模更大的训练数据集。但这种方法并未解决泛化这一根本问题,也很难想象可以采集足够的数据来涵盖所有可能情境。 本论文提出一种通过建模任务预测空间中的能量场景(energy landscape)来提升机器学习泛化能力的方法。在该能量场景中,能够成功完成任务的预测点被赋予较低能量,而其他点则具有较高能量(依据玻尔兹曼分布,这对应于“完成任务的可能性”)。从已学习模型中进行推理,即是在能量场中寻找低能量点的过程。 与直接学习一个策略函数生成预测不同,这种推理方式较少“编译化”,因而速度较慢,需要额外的搜索过程来生成明确的预测。但正是这种搜索过程,赋予了预测过程显著的灵活性,使得我们可以在预测阶段动态调整过程以泛化到新的分布。 首先,这一搜索机制允许我们在测试时引入新的约束,只需将约束加入已有的能量场中,并优化目标为在新能量场中能量最低的预测点,从而在零样本条件下实现对新约束的泛化。 其次,更进一步地,该能量建模方法允许我们以零样本方式将多个已学习的能量场组合在一起,形成更复杂的能量场景。这种组合可以被视为模型间的“通信语言”,确保预测同时满足每个组成能量函数中的约束。这使我们能够通过指定所需组合的能量场,像编程一样构建新系统。这一方法无需额外训练或数据,因此也支持对前所未见任务的泛化。 我们将这种由简单模型构建复杂系统的方法称为组合建模(compositional modeling)。面对复杂的分布建模任务,借助组合建模,我们可以学习描述该分布中变量子集之间交互的能量场,并将其组合,进而建模整个复杂分布。这些子分布更简单,所需参数更少、训练数据更少。此外,只要每个子能量函数在其本地分布内表现良好,组合后的模型也可以对全局分布中的未见部分实现泛化(见图1-1)。 组合建模还可有效捕捉自然界中广泛存在的稀疏性与对称性。例如,智能体与环境动态之间的稀疏交互可以通过各自独立的能量场建模;而对称性则可通过多个相同能量函数的实例来表示,如图像中采用相同的子块级模型进行平铺,或在动力系统中为粒子对之间的双边交互应用同一能量函数。通过将此类结构融入模型中,我们能够在有限数据下实现有效学习与对未见情境的泛化。 本论文将展示如何通过组合能量场来实现多种形式的组合建模。我们首先介绍如何实现逻辑组合,利用嵌套逻辑操作来构建集合(图3-1);然后展示如何组合概率分布,实现如乘积、混合与逆分布等操作(图3-4);接着展示如何组合图模型(有向与无向),以组合输入不同部分的概率分布(图3-5);此外还包括将组合方法用于约束满足问题(图6-11)、实现层级组合(图7-5),如将语言、视频和动作模型组合实现层级规划。 论文分为两大部分: * 第一部分介绍如何学习与组合能量场; * 第二部分讨论组合能量场在多个领域中的应用实践。
全文结构如下: 1. 第2章:介绍学习能量场的方法,包括确定性预测与概率建模两方面; 1. 第3章:提出一种能量场组合代数框架,用于实现逻辑操作、概率分布组合与图模型等操作; 1. 第4章:介绍如何从无标签输入中挖掘可组合的能量场(适用于确定性与概率场景),并说明如何利用预训练模型发现这些能量场; 1. 第5章:探讨该方法在计算机视觉中的应用,包括组合建模对场景理解与领域适应的作用; 1. 第6章:探讨该方法在机器人任务中的应用,包括规划与约束求解; 1. 第7章:探讨其在多模态预训练基础模型中的应用,如视觉问答与层级规划; 1. 第8章:探讨组合能量场在逆向材料设计与蛋白质合成中的应用; 1. 第9章:总结全文并讨论局限性与未来研究方向。