本体论(Ontology)最初是一个哲学术语,指的是对存在及存在形式的研究。
该概念被引入到人工智能(AI)领域,作为一种基于知识的系统,用于以机器可读的格式对实体及其关系进行建模和共享知识。本体为人类知识提供了结构化和逻辑化的形式,使其能够在特定领域内进行表达和可靠推理。与此同时,基于现代深度学习的语言模型(LMs)在自然语言处理(NLP)领域标志着一个重要的里程碑,因为它们从大规模和复杂的文本数据分布中整合了大量的背景知识。本论文探索了这两种范式之间的协同作用,主要关注于语言模型在本体工程中的应用,以及更广泛的知识工程中的作用。其目标是自动化或半自动化本体构建和维护的过程。本体工程涵盖了本体开发生命周期中的各种任务。本文集中探讨了其中三个关键方面:(i)本体对齐,旨在跨不同本体对等价概念进行对齐,以实现数据整合;(ii)本体补全,旨在填补本体概念之间缺失的上下位关系;以及(iii)层次嵌入,旨在为从本体提取的层次结构开发多用途且可解释的神经表示,这些表示不仅适用于本体,还适用于其他形式的层次数据。这些表示可以促进一系列下游的本体工程任务(如i和ii),并适应更广泛的层次感知应用场景。本论文分为三个部分。第一部分奠定了理解本体和语言模型所需的基础。关于本体的章节从计算本体的基础概述开始,随后介绍了支持本体的描述逻辑形式。最后,给出了本文所关注的三个本体工程任务的正式定义。接着,语言模型部分的章节从语言模型演进的时间轴概述开始,深入讲解了沿此演进路径的各种典型语言模型。讨论随后转向当代基于Transformer的语言模型,详细阐述了它们的架构及其采用的不同学习范式。该章节以回顾语言模型和知识库(包括本体)之间的交互及相互影响作为结尾,突出了这种集成对两个研究领域的共同益处。在第一部分提供了详尽的背景之后,论文的第二部分深入探讨了具体的方法论。这一部分由三个章节组成,分别对应语言模型在本体对齐、本体补全和层次嵌入中的应用。在关于本体对齐的语言模型章节中,我们介绍了BERTMap,这是一种通过语言模型微调改进对齐预测并利用本体语义进行对齐优化的创新流水线系统。我们还将提到本体对齐评估倡议(OAEI)的生物医学机器学习赛道(Bio-ML),该赛道在过去两年中已成为各种本体对齐系统的基准平台。关于本体补全的语言模型章节介绍了OntoLAMA,这是一套语言模型探测数据集以及一种基于提示的语言模型探测方法,即使在有限的训练资源下,该方法也能有效预测上下位关系。最后,层次嵌入的语言模型章节讨论了语言模型作为层次Transformer编码器(HiT)进行再训练的问题,解决了语言模型在明确解释和编码从本体中提取的层次结构时的局限性。第三部分详细介绍了实际的实现情况。我们主要介绍了DeepOnto,一个利用深度学习进行本体工程的Python包,重点是语言模型。DeepOnto提供了一系列从基础到高级的本体处理功能,以支持基于深度学习的本体工程开发。该包还包括第二部分中提到的系统和资源的完善实现。综上所述,本文倡导在AI开发中采取更加整体的方式,其中语言模型和本体的集成可以为知识工程及其应用领域带来更先进、可解释和实用的范式。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。