【EPFL博士论文】将结构化知识先验注入神经模型以实现样本高效的符号推理，

人类智能的标志是推理、计划和解决高度抽象问题的能力。最近在深度神经网络推动下，人工智能取得了显著进展，革新了计算机视觉和自然语言处理等领域。然而，尽管我们见证了这些令人惊叹的进步，创建能够高效获取人类级别推理能力的模型仍然是一个挑战。为了取得进展，至关重要的是承认所有模型固有的归纳偏差，并且人类级别的智能无法完全泛化，需要合适的知识先验的引入。本研究遵循这一思路，旨在通过引入适当的知识先验和结构化表示来增强神经网络的推理能力。由于问题的复杂性，我们计划从多个角度进行研究。论文分为三个主要部分，每一部分都聚焦于不同的任务和视角。论文的第一部分围绕交互式文本环境中的推理和计划展开研究。我们引入了新的环境来评估神经代理的常识推理能力和决策能力。随后，我们探讨了图结构表示是否可以作为知识表示和推理的适当归纳偏差。我们提出了使用图作为先验知识来源和世界状态模型的代理，显示出它们在样本效率方面的优越性。此外，我们引入了一种基于案例推理的通用算法，用于训练策略内代理，改善其计划和分布外泛化能力。在第二部分中，我们将核心事实推理挑战隔离开来，研究语言模型如何推理以及如何从先验知识中受益。我们深入研究了语言理解任务，并介绍了一种高效方法来导航大规模知识图谱，并回答需要复杂逻辑推理和分布鲁棒性的自然语言问题。随后，我们提出了一种通过在潜在空间中注入适当结构来增强语言模型在实体链接任务中的先验知识的方法，显示了显著的改进。最后，受发展科学的启发，我们关注于人类智能的核心知识先验，重点研究几何和拓扑先验。我们引入了一种变体的Transformer模型，结合了格对称性先验，显示出其在基本几何推理任务上比标准Transformer高两个数量级的样本效率。本论文的贡献涵盖了多个方面。我们在多个基准上取得了最先进的结果，包括流行的文本环境、标准问答和实体链接数据集以及几何推理任务。我们的基于文本的神经代理在样本效率和分布鲁棒性方面优于基线模型。提出的问答模型在规模上比竞争方法高出几个数量级，并实现了训练分布外的组合泛化。我们的实体链接方法在参数数量是大规模生成模型的十八分之一的情况下，实现了可比的结果。

https://infoscience.epfl.ch/record/307634?ln=en&v=pdf

成为VIP会员查看完整内容

相关内容

博士论文

关注 117

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【ETHZ博士论文】编码在深度神经网络中的学习算法的可解释性

专知会员服务

34+阅读 · 2024年6月11日

【ETHZ博士论文】增强现实中3D场景的重建、理解与编辑

专知会员服务

34+阅读 · 2024年2月17日

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

专知会员服务

24+阅读 · 2024年1月2日

【牛津大学博士论文】深度生成模型：表示、预测、设计在生物学领域的应用

专知会员服务

26+阅读 · 2023年12月22日