推理,即从现有知识中逻辑得出结论的能力,是人类的标志之一。与感知能力一起,它们构成了人工智能的两个主要主题。虽然深度学习在计算机视觉和自然语言处理等感知领域已经超越了人类水平,但在推理领域的进展却远远落后。一个根本原因是,推理问题通常在知识(例如,知识图谱)和查询(例如,多步查询)的结构上具有灵活性,许多现有模型只能在训练中见过的结构上表现良好。在本论文中,我们旨在通过设计能够在知识和查询结构之间进行泛化的算法,以及加速结构化数据开发的系统,推动推理模型的边界。本文分为三个部分。在第一部分中,我们研究了能够归纳泛化到未见过的知识图谱的模型,这些图谱涉及新的实体和关系词汇。对于新实体,我们提出了一个新颖的框架,该框架在动态规划算法中学习神经算子来计算路径表示[275]。通过学习优先函数[274],该框架进一步扩展到百万规模的知识图谱。对于关系,我们构建了一个关系图来捕捉关系之间的交互,从而将新关系转化为新实体。这使我们能够开发出一个适用于任意知识图谱的单一预训练模型[65]。在第二部分中,我们提出了两种在知识图谱和文本上进行多步查询泛化的解决方案。对于知识图谱,我们展示了多步查询可以通过多次调用图神经网络和模糊逻辑操作来解决[270]。这一设计使得可以泛化到新实体[62],并可以与我们的预训练模型集成以适应任意知识图谱[66]。对于文本,我们设计了一种新算法,通过学习显式的知识文本规则来提高大型语言模型在多步查询上的表现[273]。在第三部分中,我们提出了两个系统,以促进结构化数据上机器学习的开发。我们的开源库将结构化数据视为一等公民,消除了在结构化数据(包括图、分子和蛋白质)上开发机器学习算法的障碍[271]。我们的节点嵌入系统解决了嵌入矩阵的GPU内存瓶颈,并扩展到具有十亿节点的图[272]。关键词:推理,表示学习,知识图谱,大型语言模型,机器学习系统https://arxiv.org/pdf/2410.13018 感知和推理是人工智能的两个主要主题。感知赋予代理感知环境并将其处理为知识的能力,而推理则赋予代理利用已存储的知识回答问题和得出新结论的能力。随着深度学习的兴起,在感知领域(如计算机视觉[82]和自然语言处理[210])已经涌现出大量先进的模型。这些模型在从互联网中训练大量数据时达到了巅峰,通常凝聚为一个可以用于广泛任务的单一大型模型[2, 201, 163, 3]——这类模型如今被称为基础模型。然而,在推理领域,深度学习的突破非常有限,因此许多应用仍受制于当前模型的推理能力。造成这种差距的一个根本原因是,推理领域比感知领域需要更复杂的泛化能力。与感知领域中的问题大多是已知问题的插值不同,推理领域中的问题通常是已知问题的外推,例如已知问题的组合、分解、抽象或替换。如果一个模型不具备适当的归纳偏差来处理这种泛化维度,它必然无法解决新的推理问题。图1.1(上)展示了GPT-4[2]的这种失败。GPT-4可以成功地回答一个算术问题,但无法解决一个类似的亲属关系问题,尽管它已经学会了亲属关系的常识。这突显了现有模型架构在执行推理方面的缺陷,即使通过在整个互联网数据上进行训练,这些缺陷也无法弥补。在本论文中,我们旨在推动表示学习模型在推理领域的边界。我们注意到,尽管推理问题在表面形式上各不相同,但它们的核心是代表推理过程中背景知识的结构。因此,回答查询实际上是对这些结构进行一系列操作,通常会产生一个子结构。图1.1(下)展示了上述两个问题的相应结构。从这个角度看,这两个问题具有相同的知识和查询结构,唯一的区别在于与结构相关的词汇。基于这一观察,我们对能够跨越多种结构进行泛化的表示学习模型产生了兴趣,特别是那些在训练时未见过的结构。我们考虑以下几类推理问题中的泛化:

  • 跨知识结构的泛化。大多数知识结构随着时间推移而演变,这需要推理模型在同一领域内适应新的知识结构。即使节点和边的语义不同,两个领域的结构也可以相似。特别是,我们研究了能够在不同实体和关系词汇的图之间泛化的模型。
  • 跨查询结构的泛化。许多有趣的查询是由多个推理步骤组成的。因此,可能的查询结构数量呈指数级增长,不可能用所有结构来训练模型。因此,我们研究能够泛化到新的或更长步骤组合的模型。 这两个目标对于表示学习模型来说都是相当具有挑战性的,因为表示学习模型通常擅长拟合训练集提供的所有信息,而测试集在某些方面与训练集有所不同。因此,我们需要在模型架构中注入某些归纳偏差,使模型只学习不同结构通用的信息函数。相比之下,符号算法,如个性化PageRank[153]和子图匹配,不论其针对何种训练结构实现,都能完美泛化到未见过的结构。然而,符号算法是由人工设计的,且仅适用于它们为之设计的有限场景,例如完整的知识结构。为了实现跨结构的泛化目标,我们设计了带有符号算法启发式归纳偏差的表示学习模型。这一核心思想贯穿了本论文的各个部分。开发适用于结构的表示学习模型往往非常繁琐,因为现代机器学习框架是为张量而设计和优化的。为了解决这个问题,我们旨在开发一个库,以简化结构化数据上的机器学习开发,并吸引更多开发者进入这一领域。此外,考虑到现实世界中知识结构的巨大规模,我们希望研究适用于流行表示学习方法和我们自己方法的可扩展解决方案,目标是将它们的应用扩展到百万级甚至更大规模的图。总之,本论文解决了跨多种结构的泛化挑战,包括实体词汇、关系词汇以及图和文本模态中的多步查询。我们在本论文中的工作展示了统一各种知识结构和查询结构的可能性,促成了第一个适用于知识图谱上单步和多步查询的基础模型。这些工作改变了长期以来仅学习浅层结构嵌入的传统,开启了推理领域的许多新机遇。我们期待我们的成果和发现能加速向人类级推理模型迈进,并推动人工智能的终极目标。

成为VIP会员查看完整内容
23

相关内容

表示学习是通过利用训练数据来学习得到向量表示,这可以克服人工方法的局限性。 表示学习通常可分为两大类,无监督和有监督表示学习。大多数无监督表示学习方法利用自动编码器(如去噪自动编码器和稀疏自动编码器等)中的隐变量作为表示。 目前出现的变分自动编码器能够更好的容忍噪声和异常值。 然而,推断给定数据的潜在结构几乎是不可能的。 目前有一些近似推断的策略。 此外,一些无监督表示学习方法旨在近似某种特定的相似性度量。提出了一种无监督的相似性保持表示学习框架,该框架使用矩阵分解来保持成对的DTW相似性。 通过学习保持DTW的shaplets,即在转换后的空间中的欧式距离近似原始数据的真实DTW距离。有监督表示学习方法可以利用数据的标签信息,更好地捕获数据的语义结构。 孪生网络和三元组网络是目前两种比较流行的模型,它们的目标是最大化类别之间的距离并最小化了类别内部的距离。
【博士论文】几何中的神经表示
专知会员服务
26+阅读 · 9月28日
【斯坦福博士论文】具身物体搜索的操作与推理方法
专知会员服务
38+阅读 · 2023年9月13日
【DTU博士论文】结构化表示学习的泛化
专知会员服务
50+阅读 · 2023年4月27日
深度学习在数学推理中的应用综述
专知会员服务
43+阅读 · 2022年12月25日
【UFPE大学博士论文】基于熵损失的鲁棒深度学习
专知会员服务
41+阅读 · 2022年11月11日
【迪肯大学博士论文】深度神经网络视觉推理
专知会员服务
45+阅读 · 2022年10月3日
【CMU博士论文】多视图上下文理解的知识增强表示学习
专知会员服务
34+阅读 · 2022年8月11日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
数据受限条件下的多模态处理技术综述
专知
16+阅读 · 2022年7月16日
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
【博士论文】几何中的神经表示
专知会员服务
26+阅读 · 9月28日
【斯坦福博士论文】具身物体搜索的操作与推理方法
专知会员服务
38+阅读 · 2023年9月13日
【DTU博士论文】结构化表示学习的泛化
专知会员服务
50+阅读 · 2023年4月27日
深度学习在数学推理中的应用综述
专知会员服务
43+阅读 · 2022年12月25日
【UFPE大学博士论文】基于熵损失的鲁棒深度学习
专知会员服务
41+阅读 · 2022年11月11日
【迪肯大学博士论文】深度神经网络视觉推理
专知会员服务
45+阅读 · 2022年10月3日
【CMU博士论文】多视图上下文理解的知识增强表示学习
专知会员服务
34+阅读 · 2022年8月11日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
相关论文
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
微信扫码咨询专知VIP会员