推理,即从现有知识中逻辑得出结论的能力,是人类的标志之一。与感知能力一起,它们构成了人工智能的两个主要主题。虽然深度学习在计算机视觉和自然语言处理等感知领域已经超越了人类水平,但在推理领域的进展却远远落后。一个根本原因是,推理问题通常在知识(例如,知识图谱)和查询(例如,多步查询)的结构上具有灵活性,许多现有模型只能在训练中见过的结构上表现良好。在本论文中,我们旨在通过设计能够在知识和查询结构之间进行泛化的算法,以及加速结构化数据开发的系统,推动推理模型的边界。本文分为三个部分。在第一部分中,我们研究了能够归纳泛化到未见过的知识图谱的模型,这些图谱涉及新的实体和关系词汇。对于新实体,我们提出了一个新颖的框架,该框架在动态规划算法中学习神经算子来计算路径表示[275]。通过学习优先函数[274],该框架进一步扩展到百万规模的知识图谱。对于关系,我们构建了一个关系图来捕捉关系之间的交互,从而将新关系转化为新实体。这使我们能够开发出一个适用于任意知识图谱的单一预训练模型[65]。在第二部分中,我们提出了两种在知识图谱和文本上进行多步查询泛化的解决方案。对于知识图谱,我们展示了多步查询可以通过多次调用图神经网络和模糊逻辑操作来解决[270]。这一设计使得可以泛化到新实体[62],并可以与我们的预训练模型集成以适应任意知识图谱[66]。对于文本,我们设计了一种新算法,通过学习显式的知识文本规则来提高大型语言模型在多步查询上的表现[273]。在第三部分中,我们提出了两个系统,以促进结构化数据上机器学习的开发。我们的开源库将结构化数据视为一等公民,消除了在结构化数据(包括图、分子和蛋白质)上开发机器学习算法的障碍[271]。我们的节点嵌入系统解决了嵌入矩阵的GPU内存瓶颈,并扩展到具有十亿节点的图[272]。关键词:推理,表示学习,知识图谱,大型语言模型,机器学习系统https://arxiv.org/pdf/2410.13018 感知和推理是人工智能的两个主要主题。感知赋予代理感知环境并将其处理为知识的能力,而推理则赋予代理利用已存储的知识回答问题和得出新结论的能力。随着深度学习的兴起,在感知领域(如计算机视觉[82]和自然语言处理[210])已经涌现出大量先进的模型。这些模型在从互联网中训练大量数据时达到了巅峰,通常凝聚为一个可以用于广泛任务的单一大型模型[2, 201, 163, 3]——这类模型如今被称为基础模型。然而,在推理领域,深度学习的突破非常有限,因此许多应用仍受制于当前模型的推理能力。造成这种差距的一个根本原因是,推理领域比感知领域需要更复杂的泛化能力。与感知领域中的问题大多是已知问题的插值不同,推理领域中的问题通常是已知问题的外推,例如已知问题的组合、分解、抽象或替换。如果一个模型不具备适当的归纳偏差来处理这种泛化维度,它必然无法解决新的推理问题。图1.1(上)展示了GPT-4[2]的这种失败。GPT-4可以成功地回答一个算术问题,但无法解决一个类似的亲属关系问题,尽管它已经学会了亲属关系的常识。这突显了现有模型架构在执行推理方面的缺陷,即使通过在整个互联网数据上进行训练,这些缺陷也无法弥补。在本论文中,我们旨在推动表示学习模型在推理领域的边界。我们注意到,尽管推理问题在表面形式上各不相同,但它们的核心是代表推理过程中背景知识的结构。因此,回答查询实际上是对这些结构进行一系列操作,通常会产生一个子结构。图1.1(下)展示了上述两个问题的相应结构。从这个角度看,这两个问题具有相同的知识和查询结构,唯一的区别在于与结构相关的词汇。基于这一观察,我们对能够跨越多种结构进行泛化的表示学习模型产生了兴趣,特别是那些在训练时未见过的结构。我们考虑以下几类推理问题中的泛化: