作者 | Claudio Gutierrez
编译 | MrBear
以史为鉴,可以知兴替。纵观近期包括 AAAI、NeurIPS、IJCAI 在内的AI顶级会议,对图结构模型的研究是一个绕不开的话题,大量学者涌入这个赛道,想一试身手。
然而,作为一类古老的理论,人们对图论的研究实际上贯穿于计算机科学发展的始终。如今我们看来耀眼辉煌的人工智能技术,实际上也是离散数学、统计理论、逻辑推理、数据库、分布式计算等基础理论厚积薄发的产物。
本文为智利大学教授 Claudio Gutierrez 为 ISWC 大会所撰写的主题文章,从人工智能的起源开始,循序渐进地介绍了知识图谱诞生的历史,也探讨了该学科未来的研究方向。
本世纪初,研究者们提出了「知识图谱」这一术语,谷歌从 2012 年起大力推广「知识图谱」技术,让它在学术界和工业界迅速流行了起来。随之,网上也出现了对知识图谱大量的定义和讨论。
但不管如何,客观地说,它都是多个研究领域共同的结晶,包括语义 Web、数据库、知识表征和推理、自然语言处理、机器学习等。
来自这些不同学科的思想和技术融合在一起,极大丰富了知识图谱的概念,但同时也给相关从业人员和研究人员提出了挑战:
他们很难梳理清楚,当前的研究进展如何根植于早期的技术,并从中发展而来。
这个必须回溯历史,从知识图谱学科发展的角度去完整梳理,才能抓住其脉络。
本文的核心目的正是这样。我们将
为读者展示该领域
的知识结构,引导读者跟进最新
的相关思想、理论,以及我们认为具有标志性意义、并推动了当前学科发展的学术事件。
希望这篇文章能够,
帮助你理解哪些思想有效、哪些无效,以及它如何启发人们得出下一个想法。
知识图谱所包含的基本要素,可以追溯到古代,你要去研究数学、哲学、语言学、心理学等,但这里我们不打算搞这么宏大。
从时间的角度来看,我们将集中讨论现代意义上的计算出现之后(上世纪 50 年代),知识图谱的演变。
此外,我们将每个时代划分为「数据」、「知识」和「数据+知识」,从而来组织相关的思想、技术和系统。
我们以几个十年为一个周期,但我们也意识到,周期之间的界限实际上较为模糊[4]。
一、数字时代的来临(20世纪 50、60年代)
数字计算机的出现和普及、第一代编程语言(LISP、FORTRAN、COBOL、ALGOL 等最具代表性的语言)、一个新的科学和技术领域(即计算机科学)的诞生,标志着数字时代的开端。
Newell、Shaw 和 Simon 在 1956 年发明的「Logic Theorist」是第一个标志性的处理复杂信息的程序。在这之后,他们于 1958 年开发的「通用解题程序」,很好地阐释了研究人员奉为圭臬的研究范式:「该程序是作者的研究工作的一部分,目的是理解人类智能、适应能力和创造能力背后的信息处理机制」。其目标为:「构建可以解决对智能和适应性有所需求的计算机程序,并探索这些程序中有哪些可以与人类处理问题的方式相匹配」。
此后,研究者们继续在自动推理领域取得了一系列进展,其中较为突出的工作有:Robinson 第一定理(归结原理)[5]、Green 和 Raphael 通过开发问答系统将数据库中的定理证明和演绎联系起来[6][7]。
在实践层面上,「推理」特征的实现是多种多样的。Joseph Weizenbaum 的 ELIZA 系统就是一个很好的例子,只要程序编写正确,该程序就可以用英语进进行关于任何话题的对话。
(2)第二条发展路线就是我们今天所说的「在空间中搜索」。
很早,人们就意识到在某种空间中进行搜索是所谓的「智能」或「推理」的努力的重要部分。为这样的空间建立一种好的表征可以使搜索更加容易。「排序」就是一个很直观的例子(70 年代以前,有 25% 的计算时间被用来对数据进行排序,使任何搜索过程都变得可行[8])。
甚至在计算机出现之前,对于从事数据处理的人来说,搜索的概念就广为人知。但是,对于在多样且复杂的空间(特别是在国际象棋、跳棋、围棋等游戏中产生的搜索空间)中进行搜索和表征的思想还是很新颖的。迪杰斯特拉(Dijkstra)于 1956 年提出了著名的最短路径算法,而这一算法在 1968 年被扩展,从而产生了 A* 算法。
(3)第三条发展路线是从非结构化数据源中检索信息。
一旦具备了一定的计算能力,人们就可以从传统的结构化数据之外的数据源中获取数据。其中,具有里程碑意义的工作是:Bertram Raphael 于 1964 年发表的「SIR: A Computer Program for Semantic Information Retrieval」。
该系统展示了可以合理地被称为「理解」语义信息的能力。它使用单词关联和属性列表来建模对话语句中传达的关系信息。同时,他们通过格式匹配处理程序从英语句子中提取语义内容。
这一方向具有标志性的工作是:Charles Bachman 于 1963 年提出的集成数据存储(IDS)系统[9]。IDS 系统在磁盘上维护共享文件的集合,拥有构造和维护这些集合的工具和一种操作数据的应用程序语言。
这种做法保证了工作的效率,但是牺牲了后来被称为「数据独立性」的特性。IDS 成为了「CODASYL」标准的基础,后来还演变成了人们熟知的数据库管理系统(DBMS)。
此外,人们认为应该有更多的专用语言来处理数据,从而催生了 COBOL(1959)。COBOL 是一种早期的面向数据处理的编程语言,其语法看上去与英语类似。
由 Richard H.Richens 于 1956 年提出的「语义网络」是知识图谱领域最重要的概念之一,起初人们将它作为自然语言机器翻译的一种工具[10]。
然而,只有少数研究人员独立地进行了进一步的研究,其中较为有影响力的工作有:Ross Quillian 于 1963 年发表的「A notation for representing conceptual information: An application to semantics and mechanical English paraphrasing」
,他于 1967 年发表的博士论文「Word concepts: A theory and simulation of some basic semantic capabilities」也对此进行了说明[11]。
在上世纪 50 年年代和 60 年代期间,人们意识到:
二、数据和知识的基石(20 世纪 70 年代)
上世纪 70 年代,计算机在工业界得到了更加广泛的应用。在这十年间,诸如苹果和微软等著名的公司纷纷成立。同时,像「Wordstar」和「Visicalc」等数据处理系统也诞生了。此时,存储和处理能力不断提升,人类的专业知识渐渐积累,从而推动了大型公司对改进数据管理方法的需求。
对数据处理需求的增长带来了通过「表征独立性」(Representational Independence)概念体现的劳动分工。这个时候,程序员和应用程序现在「忘掉」为了访问数据而对数据进行物理上的组织的方法。
这一想法是 Edgar Codd 的论文「A Relational Model of Data for Large Shared Data Banks」的核心,该论文描述了利用关系作为一种数学模型来提供表征独立性(Codd 将其称之为「数据独立性」)。这种理念促进了数据库管理系统和建模工具的发展。
在建模层面上,Peter Chen 在他的论文「The Entity-Relationship Model - Toward a Unified View of Data」中介绍了「关系-实体」(ER)数据模型,提倡基于实体和它们之间的关系对数据建模。这样的 ER 模型以图的形式包含了现实世界的语义信息。这是早期尝试将概念设计与数据模型(在本例中是关系数据模型)联系起来的尝试之一。
在系统层面上,人们基于关系模型,开发并实现了用于管理数据的软件应用程序,即关系型数据库数据库管理系统(RDBMS)。在这十年间,出现了两个关键系统:
(1)IBM 的 System R,详情请参阅论文「System R: Relational Approach to Database Management」;
(2)加州大学伯克利分校的 INGRES 系统,详情请参阅论文「The Design and Implementation of INGRES」。
这些系统首次实现了 Codd 所描述的关系模型查询系统的「愿景」,包括关系查询语言(如最终催生了当今最成功的声明式查询语言 SQL 的 SEQUEL 和 QUEL)。
虽然「数据」流派重点关注数据结构,并创建系统以最好地管理数据,但「知识」流派则重点关注数据的意义。
S. C. Shapiro 的工作便是这一方向的早期探索,他提出了一种网络数据结构(一种存储方式)来组织和检索语义信息[13]。这些想法在语义网络和处理系统(SNePS)中得以实现,它可以被认为是第一个独立的 KRR 系统。
在这十年间,对语义网络结构的批评甚嚣尘上,主要都是针对其较弱的逻辑基础。在这些批评的声音中,具有代表性的工作是 Wood 于 1975 年发表的论文「What's in a Link: Foundations for Semantic Networks」。
在这十年间,研究者们通过意义和形式化语义对语义网络进行了拓展。另一种代表性的人工智能语言是 Marvin Minsky 于 1974 年在论文「A Framework for Representing Knowledge」中提出的 Frames,它是一种为局部和微观的数据赋予结构和可扩展性的方式,即给出一种「统一且连贯的理论」。其中,我们将一个由节点和关系组成的网络定义为一个「帧」。
1976 年,John Sowa 在他的论文「Conceptual Graphs for a Data Base Interface」中引入了概念图,作为一种将自然语言查询和断言映射到关系型数据库中的中间语言。这种形式化的体系体现为概念和关系类型的有序逻辑。
几乎在同一时间,Patrick Hayes 于 1977 年在其论文「In Defense of Logic」中认识到,可以使用一阶逻辑对 Frame 网络进行形式化处理。
这份工作后来影响了 Brachman 和 Levesque,启发他们确定了一个易处理的一阶逻辑的子集,而这后来成为了描述逻辑领域的第一个研究进展。(详见 1980 年代)
在这十年间,我们开始经历数据和知识的融合。Robert Kowalski 在论文「Predicate Logic as Programming Language」中提出将逻辑同时作为声明式的和过程式的知识表征,这一领域目前被称为「逻辑编程」。Alain Colmerauer 在 PROLOG 语言中实现了这些思想。
在构建一个基于知识的系统时,一个重要的问题是「从哪里获取知识」,该领域被称为「知识获取」。专家系统是对特定领域人类专家的知识(特别是规则)进行编码的程序,它解决了知识获取的问题。
上世纪 60 年代后期,Edward Shortliffe 开始开发第一个专家系统,该系统在 70 年代逐渐流行了起来。MYCIN 是专家系统的一个经典范例,它是一个识别引起严重感染的细菌的专家系统[14]。
于 1977 年在法国的图卢兹举行的逻辑和数据库研讨会是这十年中的一个里程碑事件,它由 Herve Gallaire,Jack Minker,和 Jean-Marie Nicolas 组织。
在这次研讨会上,出现了诸如 Ray Reiter 提出的「封闭世界假设」和 Keith Clark 提出的「失败即否定」原则等重要的概念,这次会议可以被认为标志着数据逻辑方法的诞生,对该领域产生了深远的影响。人们普遍认为,这次研讨会形式化定义了逻辑和数据库之间的联系,并将其作为一个单独的字段。
-
需要保证表征独立性,关系模型就是第一个例子,而这种方法也可以在实际的系统中被实现。
-
-
-
在数据方面,需要有更灵活的数据结构来表征新型的数据,从而产生了面向对象的思想和图数据结构。
-
在知识方面,需要进一步理解逻辑中知识的形式化,从而产生了描述逻辑。
三、管理数据和知识(20 世纪 80 年代)
20 世纪 80 年代,随着个人电脑的蓬勃发展,计算任务逐渐从工业界发展到家庭。在数据管理领域,关系型数据库工业发展迅速(Oracle、Sybase、IBM 等公司纷纷入场)。面向对象的抽象作为一种新的表征独立性的形式而发展起来。与此同时,互联网开始改变人们交流和交换信息的方式。
不断增长的计算能力推动了新计算领域和相关产品的发展。这些反过来又生成了需要管理的复杂数据。此外,假定表征独立性需要的关系演变导致了软件程序与数据的分离,促使人们想方设法将编程语言(特别是像 Smalltalk 这样的面向对象语言)与数据库结合起来。这导致了面向对象的数据库(OODB)的发展。
该领域研究如何通过引入将成为未来数据中心的功能(如对象、标识符、关系、继承对象相等[15]),处理复杂的数据。许多来自学术界和工业界的系统在这个时期得到了蓬勃发展,例如 Encore-Observer(布朗大学)、EXODUS(威斯康星大学麦迪逊分校)、IRIS(惠普)、ODE (贝尔实验室)、ORION(MCC)和 Zeitgeist(德州仪器),这些系统衍生了一系列商业产品。
在这一时期,人们开始将图作为面向对象数据、图形化和可视化界面、超文本系统等的表征方式,对其进行研究。
一个早期的例子是 Harel 于 1988 年提出的图形化编程语言「HiGraph」[16]。Alberto Mendelzon 和他的学生针对该领域的而研究工作产出了有影响力的成果。他们使用图上的递归式来开发查询语言,这是现代图查询语言的基础[17]。
然而,目前仍然没有一种成熟的技术能够让这些图系统真正实用[18]。研究人员提出了一些方法试图解决这些难题,例如在超图上引入操作来弥补「对象-关系」之间的差距等[19]。由于一些值得进一步研究的原因,OODB 和图数据库系统未能战胜 RDBMS 的激烈竞争。
20世纪80年代最重要的成就是形式化定义了语言表达能力和计算复杂度或推理任务之间的根本上的平衡。这在 Brachman 和 Levesque 的论文「The Tractability of Subsumption in Frame-Based Description Languages」中得到了首次展示。
要想提升语言的表达能力,就必须在计算效率上付出代价。这导致研究人员开展一系列工作寻找表达性连续体(Expressivity Continuum)的平衡点,从而产生了一套名为「描述逻辑」的新逻辑理论。最突出的系统有「KL-ONE」、「LOOM」、「CLASSIC」等。除了描述逻辑,另一个形式化体系在此期间也得到了发展: 「F-逻辑」,它深受对象(Object)和帧(Frame)的影响。
尽管这些早期的逻辑系统在当时并没有得到大规模的工业应用,但它们表明逻辑推理可以在易于处理的软件中实现。最终,它们将成为当今应用最广泛的本体建模语言 OWL 和语义网络的基础(详见 2000 年代)。
在这里,值得一提的是,非单调推理技术在这十年间也得以发展。例如,许多形式化体系(包括限定推理、缺省逻辑、自认知逻辑、以及条件逻辑)被引入到非单调推理中[20]。
在这十年间,人们对融合数据和知识的兴趣日益浓厚。在这个发展过程中,一个重要的事件是:日本的第五代计算机计划对人工智能的大力宣传。鉴于日本在汽车和电子工业上的成功,他们也希望在软件领域取得成功。
他们的目标是创造人工智能硬件和软件,将逻辑和数据结合起来,并能像人类一样进行对话、翻译语言、解释图片并进行推理。其采用逻辑编程作为逻辑和数据结合的基础[21]。
日本的这一计划引发了世界范围内人工智能活动的浪潮,催生了诸如美国的微电子学和计算机技术联盟(MCC)[22]、慕尼黑的欧洲计算机研究中心(ECRC)和英国的 Alvey 计划等竞争项目。在整个80年代和90年代,MCC 都是硬件和软件领域重要的研究中心。例如,MCC 开展的 Cyc 计划旨在创建世界上最大的常识知识库,用于执行类人推理的应用程序[23]。
作为一种在计算机中编纂知识的实用手段,专家系统在此期间迅速发展,成为了人工智能风口浪尖上的话题。诸如「OPS5」和「Rate algorithm」等产生式规则系统在此期间也取得了进展,从而高效地实现基于规则的系统。
为了将专家系统提升到更高的水平上,人们认为专家系统应该被部署到并行处理的计算机集群上。因此,我们看到了像「DADO 并行计算机」、「大规模并行机」(Connection Machine)、「PARKA 计划」这样的系统纷纷出现。专家系统开始展现出其商业价值(请参考 Xcon、ACE 的例子)。
风险投资人逐渐开始为诸如「IntelliCorp」[25]、「ILOG」、「Neuron Data」、「Haley 系统」等人工智能公司注资。
从学术的角度来说,将逻辑与数据相结合的初步方法是:在关系型数据库的基础上进行逻辑编程。在逻辑编程中,人们指定程序的功能(「是什么」)而不指定算法(「怎么做」),因此优化起着关键作用。
在这段时间里,我们认识到优化问题比关系查询优化问题要困难得多。这催生了演绎数据库系统,它们用递归规则和优化自然地扩展了关系型数据库。
「Datalog」是 Prolog 的一个子集,它可以被看作是通过将关系型数据库语言形式化,为逻辑编程创造简洁的语义。Datalog 成为了演绎数据库的查询语言(详情请参阅 Ceri 等人的论文「What you always wanted to know about Datalog (and never dared to ask)」
)
Bancelhon 等人在他们的论文「Magic sets and other strange ways to implement logic programs」中提出的「魔法集」(Magic Set)是对 Datalog 的一项重要优化,它重写了逻辑规则,以减少产生的无关事实。
LDL 系统是最早的演绎数据库系统之一,在 Tsur 和 Zaniolo 的论文「LDL: A Logic-Based Data-Language」中介绍了这一系统。其中许多思想直接体现在当时被称为主动数据库的关系型数据库中[26]。
在 1990 年代初,事实证明专家系统成本高昂,难以更新和维护。
演绎推理也很难解释,并十分脆弱,且局限于特定领域。
因此,IT 世界改变了发展策略,将这种经验从 IBM、SAP、Oracle 等供应商那里转移到主流 IT 工具中。在日本第五代计算机项目启动十年之后,它最初令人印象深刻的一系列目标还没有实现。资金逐渐枯竭了(除了 Cyc 之外),这些因素导致了人工智能走向「冬天」。
-
逻辑和数据的结合需要紧密耦合(而不仅仅是数据库基础上的层 prolog/专家系统)。
-
需要平衡逻辑语言的表达能力与推理任务的计算复杂度。
20世纪90年代,两种改变世界的现象级技术诞生了。
首先,万维网横空出世。这种全球信息基础设施彻底改变了传统的数据、信息和知识实践。在通用信息空间的概念下,任何人都可以发布信息和阅读(从文本和图像等形式开始),它以分布式的方式完全改变了知识和数据管理的哲学和实践。
其次,我们社会几乎所有的方面都被数字化(从纸张到电子,从电子模拟信号到电子数字信号)。这些现象为我们今天所知的大数据铺平了道路[27]。科学研究和工业生产都转向了这些新的发展领域。
那时,数据库行业正忙于开发 RDBMS,并对其进行调优,以满足通过 Web 渐渐普及的电子商务所提出的需求。这导致我们产生了大量需要综合并分析的数据,在这一势头之上开展的研究重点关注网络数据、数据集成和数据仓库/OLAP 等领域。
慢慢地,数据研究社区也转而研究网络数据。许多工作提升了人们对网络上数据和计算的理解,例如 Mendelzon 和 Milo 的论文「Formal Models of the Web」
[18] 以及 Abiteboul 和 Vianu 的论文「Queries and Computation on the Web」。
此外,网络激发了分发数据和自我描述数据的需求。在实现这些目标的过程中,一个关键的研究成果是:用于半结构化数据的数据模型和查询语言,如 XML、 OEM、 RDF 和 XQUERY 等。
在此期间,研究和工业机构需要集成多个分布式、异构的数据源,以便进行业务决策。联邦数据库在 80 年代就开始着手解决这个问题(详见 Sheth 和 Larson 的综述「Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases」)
。
然而,这是一个数据集成达到巅峰的时代,许多产学结合的项目诞生了,包括 TSIMMIS 和斯坦福/ IBM 的 Lore,南加州大学的 SIMS,MCC 的 InfoSleuth 等。这些系统引入了介质(Mediators)[29]和包装器的概念,诸如 SIMS 和 InfoSleuth 之类的系统也将本体引入到了数据集成组合中[30]。
此时,我们也渐渐看到需要使用正在生成和集成的数据来驱动业务决策报告的生成。这就衍生出了数据仓库,它可以支持对多维数据立方体的分析,即联机分析处理(OLAP)。与此同时,大部分的研究着眼于提出启发式算法来实现数据立方体的查询优化[31]。
从知识的角度来说,研究者们意识到,实现专家系统主要的瓶颈是从领域专家那里获取知识。这催生了一个被称为「知识管理和获取」的研究领域,后来它发展为人们熟知的「知识工程」,最终演变为「本体工程」(ontology engineering)。
由 Brain Gaines 组织的,在 Banff 举办的「知识获取研讨会」,就是在此期间发生的一系列开创性事件的代表。在这里,研究者们的目标仍然是:将关于世界的信息编码为计算机可以理解的形式。然而,终端产品的性质已经在不断改变和发展——包括概念数据模型、产生式规则、语义网络和逻辑。
网络使人们意识到知识应该被反复共享和重复使用。Gruber 在他的论文「A translation approach to portable ontology specifications」中将术语「本体」在计算上的意义定义为「概念化的明确说明」。知识获取的主要焦点是设计和维护本体的方法。
Uschold 和 Gruninger 在他们的论文「Ontologies: principles, methods and applications」中开创了本体工程的研究领域。
此后,一些衍生的方法论陆续出现,如马德里大学人工智能实验室开发的「Methontology」,知识获取和文档结构化(KADS)方法论,CommonKADS,以及一些专用的方法(例如,OntoClean)。与此同时,我们也开始看到第一批本体工程工具(例如 Ontolingua、WebODE、Protege 等)陆续出现。
在此期间,演绎数据库体现了传统数据库上数据和知识的融合达到了巅峰。
1990 年- 1999 年举办的「演绎数据库研讨会」和1994 年到 2003 年举办的「表征与数据库研讨会」等学术活动是该领域研究活动的中心,这些研究进展催生了 Datalog 的一些改进版本(例如 Datalog +/-)。
这些研究的主要挑战是如何在大规模网络数据上进行形式化推理。事实上,将网络视为一个通用的信息空间,引起了开发语言来描述、查询和推理海量数据、信息和知识的需求。在这十年间,最雄心勃勃的计划就是将网络上的知识和数据结合起来,这一想法并最终命名为「语义网络」。
诸如简单 HTML 本体扩展(SHOE)、语义 Web 中间件「Ontobroker」[32]、本体推理层(OIL)和 DARPA 智能体标记语言(DAML)、知识查询与操作语言(KQML)和欧盟资助的专题网络「OntoWeb」[33](用于知识管理和电子商务的基于本体的信息交换)等等的研究进展对语义网络项目产生了强烈的影响,并为其定下了框架,最终融合在了网络本体语言 OWL 的定义中。其目标是汇聚网络上的诸如知识表征、本体、逻辑、数据库、信息检索等技术。这些发展催生了一个围绕网络及其可能性的研究和实践的新领域。
-
-
新型的额数据正在传播开来(特别是通过各种媒体:图像、视频、声音)。
-
数据需要被(而且现在已经可以被)连接起来,从而获取价值。
-
为了处理网络产生的新的数量级的数据,需要更大的算力。
-
单纯的逻辑技术在复杂度上有限制,这会使可扩展性难以实现。
在21世纪初,我们见证了电子商务、在线社交网络(例如,Facebook、Twitter)的爆炸式增长,并且认识到可用数据是海量的(即大数据)。这导致人们开发了新的系统和方法,以比以前更大的规模管理和分析数据。在 21世纪第一个十年末,统计方法(通过引入深度学习)开始在各种各样的应用取得了超越逻辑方法的性能表现。
谷歌和亚马逊等互联网公司开始构建数据管理的壁垒,并驱使开发人员跳出典型的企业数据环境的思维。在他们的论文「MapReduce: Simplified Data Processing on Large Clusters」[34]中,谷歌引入了一种使用 MapReduce 处理大量数据的基础设施 [34]。
随着 CouchDB 等系统的出现,非关系型、分布式数据存储得到了蓬勃发展,随后谷歌发表了论文「Bigtable: A Distributed Storage System for Structured Data」。
亚马逊也紧随其后,发表了论文「Dynamo: Amazon’s Highly Available Key-value Store」,
这就催生了 NoSQL 数据库,它再一次普及了针对列、文档、键值和图数据模型的数据库管理系统。
数据管理研究社区进一步关注数据集成(模式匹配、实体链接等)和 XML 处理问题。数据库理论研究人员从基础的角度(正如 Lenzerini 在「Data Integration: A Theoretical Perspective」中所展示的那样)开始研究数据集成,并催生了针对数据交换的研究工作。
此时,描述逻辑的研究社区为了进行知识表征,继续定义新的逻辑描述方法,研究二者之间的平衡,并且在「FACT」、「Hermit」、「Pellet」等系统中实现算法。目前研究社区正在寻找这些研究成果落地应用的机会。一个可能产生影响的机会就是:成为网络革命(特别是语义网络)的一部分。
世界上充斥着大量的数据,这些数据为人工智能的统计方法(特别是机器学习和后来的深度学习)提供了输入。有人可能会说,产生知识的逻辑方法正在退居幕后。
在知识领域,统计技术被认为是从已知的事实中推导出新的事实,它使实际应用中的逻辑方法不像以往那样受人关注。自从论文「Imagenet classification with deep convolutional neural networks」于 2012 年被发表以来,知识表征和推理研究领域的重点发生了改变。随着算力的提升,当初六十年代尝试直接通过神经网络建立知识模型的做法现在又有效了。
如今,这些技术和系统在许多人类才能完成的任务(例如分类,以及有大量训练数据的应用程序)中超过了人类。
通常,这篇图像检测论文被认为是引发这场革命的标志性论文。
当然,大多数传统的关于知识的研究还是在试图找到一个与统计和机器学习相结合的方法。
在这一时期,连接数据和知识的工作有两条发展轨迹:语义网络和关联数据。
结合数据和知识的主要工作是在语义网络项目中体现出来的。这建立在本文之前介绍的许多研究成果智商,特别是自描述图数据模型(RDF)、描述逻辑和知识工程。
Tim Berners-Lee、Jim Hendler 和 Ora Lassila 在「科学美国人」杂志上发表的论文「语义网络」最初引起了业界和学术界的兴趣。
借助于万维网联盟(W3C)的标准化工作,支撑语义网络的技术(例如,数据模型、模式、本体语言和查询语言等),便正在由学术界和工业界同时开发。
语义网络标准(RDF、OWL、SPARQL)恰好处于「走在时代前沿」的平衡点,既没有太晚(世界已经由于信息爆炸而碎片化) ,也没有太早(没有人愿意采用它)。然而也许人们对学术界的偏见过于严重[35],或者存在一些更为根本的问题——即「外部」因素(如对分布式和民主的数据管理方式不感兴趣的大公司的垄断和中心化)。总而言之,事实就是,在这十年中,语义网络的大部分活动并没有像预期的那样受到业界的欢迎。
早期的语义网络项目着眼于知识表征和推理,特别是自上世纪 90 年代起对本体的研究工作。描述逻辑的研究社区产生的研究成果实现了本体语言的标准化。2004 年确立了第一版网络本体语言(OWL)的标准,它是欧洲的 OIL 项目和美国的 DAML 项目结合的产物。
在这十年的中期,「关联数据」这一术语作为一套联通互联网上数据的最佳实践凸显了出来,旨在增强网络上的知识。这催生了关联开放数据(LOD)项目和大型的基于 RDF 的知识库(例如,DBPedia、Freebase),并最终催生了 Wikidata。其中,LOD 项目展示了如何在大规模网络上集成数据。
这些概念都在2007年的国际语义网络会议(ISWC 2017)上被引入。在 2000 年代后期,主要的搜索引擎发布了「schema. org」作为一种提升网站语义标注的方法,这个网站是建立在语义网络研究社区的成果之上的。
另一方面,这十年见证了统计技术的繁荣。在这个层面上,我们可以看到数据处理和知识处理之间极度不平衡。由于知识处理(从数据中提取知识)的惊人进步,传统的数据管理技术显示出其局限性。这可能是在大数据世界中寻找存储、管理和整合数据和知识的新形式的驱动因素之一。这与知识图谱概念的提出有很大关系。
-
我们学着从更宏大的视角(大规模网络)思考数据和知识的问题。
-
由于新型硬件和智能的学习技术的诞生,我们进入了神经网络的时代。
-
-
(特别是神经网络中的)统计方法并不能提供有关「推理」或「演绎」的信息,这在对可解释性有所要求的领域提出了挑战。
六、我们现在处于怎样的历史方位?
-
-
整合最多样化、与众不同且几乎无限量的数据和知识源(结构化的数据文本、规则、图像、语音、视频等)。
此外,所有这些都必须对于「普通」用户是可以获取和访问的。
2012 年,谷歌发布了一款名为「知识图谱」的产品,它基于将数据表征为与知识相连的图。知识图谱的概念指出了这一需求。事实上,我们可以认为它是一个不断发展的项目、设想中的远景,而不仅仅是一个精确的概念或系统。可以说,这样的产品是语义网络计划的具体实现。
知识图谱的诞生使得了其它类型的「图」服务如雨后春笋般涌现了出来。例如,2013年 Facebook 发布了他们的图搜索服务,该服务也包含了类似的想法,基本上呈现了一个虚拟图,它整合了针对主题和实体的已经编译的数据。此外,我们还看到了来自微软、Facebook、亚马逊、Ebay 等巨头的「知识图谱」类服务[36]。
后来,无以计数的公司和组织开始使用知识图谱关键词来指代由实体和关系构成的图的数据集成方式 [37]。学术界开始使用这个关键词来指定一类条件较为宽泛的系统,这些系统将数据与一些图结构结合在一起,是语义网络和关联数据的「涅槃重生」。
与此同时,各种公司和学术机构正在开发图数据库技术。例如,几乎所有公司基于 RDF 和 SPARQL 建立的数据库,如 Virtuoso、Allegrograph、Ontotext、Stardog、Amazon Neptune 等;Neo4j 及其使用的语言 Cypher;Oracle 及其使用的语言 PGQL;以及像 G-CORE 这样的研究查询语言。
今天,我们有幸见证统计方法和逻辑方法的融合,前者在公众眼中势不可挡,在某种程度上让后者显得黯淡无光:这就是为什么我们认为有必要唤起人们对这段历史的关注。
随着机器和深度学习如「海啸」般袭来,重新唤起人们对数据和知识的意义的认识至关重要。尽管过去的这些思想和发展在当时并不成功,不广为人知,甚至根本不为人所知,但它们蕴含着丰富的思考,可以对未来的研究有所启发,照亮我们前进的道路!
参考文献
[1] Nevertheless, there exist works on related topics and focused periods, e.g.: F. Gandon (2018) A Survey of the First 20 Years of Research on Semantic Web and Linked Data and L. Poirier (2017) A Turn for the Scruffy: An Ethnographic Study of Semantic Web Architecture (we thank Frank van Harmelen for these references).
[2] Stuart Russel, Peter Norvig. Artificial Intelligence, A Modern Approach. 1995. Chp. 1.2, 1.3.
[3] An example of ancient times data processing are the Quipus, the knot-based devices Inca civilization used to collect and keep track of records of data.
[4] The writer J. L. Borges once pointed out the arbitrariness of what he called the “obsession with the base 10”.
[5] Robinson, J. Alan (1965). "A Machine-Oriented Logic Based on the Resolution Principle". Journal of the ACM. 12 (1): 23–41
[6] Green, C. C., and Raphael, B., The Use of Theorem-Proving Techniques in Question-Answering Systems, in: Proceedings of the 23rd ACM National Conference, Washington, DC, 1968.
[7] Raghu Ramakrishnan, Jeffrey D. Ullman, A survey of deductive database systems,
The Journal of Logic Programming, Volume 23, Issue 2, 1995, Pages 125-149. Historical Overview in Section 5.
[8] Ceruzzi, History of Modern Computing, MIT Press, 1998. p. 89
[9] Charles W. Bachman. The Origin of the Integrated Data Store (IDS): The First Direct-Access DBMS. IEEE Annals of the History of Computers, 2009, vol. 31, pp. 42-54.
[10] Richens, "Preprogramming for mechanical translation," Mechanical Translation 3 (1), July 1956, 20–25.. See Page 23
[11] Ross Quillian, PhD dissertation, Carnegie Inst. of Technology, now CMU, 1967.
[12] INGRES (INteractive Graphics REtrieval SystemPostgres) led to POSTGRES (POST inGRES) and later evolved into PostgreSQL.
[13] Shapiro, Stuart C. (1971), "A Net Structure for Semantic Information Storage, Deduction, and Retrieval", Proceedings of the 2nd International Joint Conference on Artificial Intelligence (Los Altos, CA: Morgan Kaufmann): 512–523.
[14] Shortliffe, E. Computer-Based Medical Consultations: MYCIN
[15] S. Heller, U. Daval, J. Orenstein, S. Radke-Sproull. An object-oriented approach to data management: why design databases need it. Proceeding DAC '87 Proceedings of the 24th ACM/IEEE Design Automation Conference Pages 335-340
[16] Harel, D. (1988), On Visual Formalisms, Communications of the ACM, Volume 31, Number 5
[17] (1) Cruz, I. F., Mendelzon A. O., and Wood, P. T. A graphical query language supporting recursion. In Proc. ACM SIGMOD, pages 323–330, 1987. (2) Mariano P. Consens, Alberto O. Mendelzon. GraphLog: a visual formalism for real life recursion. PODS '90, pp. 404-416. (3) See Peter Wood’s PhD Thesis
[18] R. Angles, C. Gutierrez. Survey of Graph Databases Models.
[19] Harold Boley, Operations on Nets. Computers & Mathematics with Applications Volume 23, Issues 6–9. 1992
[20] R. Brachman. The Future of Knowledge Representation. AAAI-90.
[21] Given the popularity of LISP in the United States, the Japanese decided to adopt the European’s Prolog, given that they competed against the Americans. The relationship between US and Japan in the 80s was very tense.
[22] Computer Consortium Lags. NY Times. 1984 and Plugged In: 30 years ago, MCC consortium helped ‘put Austin on the technology map’ Statesman. 2013
[23] Douglas B. Lenat: CYC: A Large-Scale Investment in Knowledge Infrastructure. Commun. ACM 38(11): 32-38 (1995) , Douglas B. Lenat and R. V. Guha.
Building Large Knowledge-Based Systems; Representation and Inference in the Cyc Project (1st ed.). Addison-Wesley 1990
[24] This algorithm was developed by Charles Forgy in his PhD during the late 70s, and it is still the defacto algorithm for rule based systems today.
[25] Edward Feigenbaum was a founder, which commercialized the expert system Knowledge Engineering Environment (KEE) which was influenced by MYCIN
[26] Jennifer Widom claims that Deductive is at a higher level of abstraction while Active is at a lower.
[27] Unthinkable without a universal platform to access data.
[28] See all the work by Alberto Mendelzon on this topic
[29] G. Wiederhold. Mediators in the architecture of future information systems
[30] The term “Ontology-based data access” (OBDA) is a reincarnation of much of the data integration work from the 90s but with semantic web and graph clothes and with further understanding of the Description Logic which was not well understood in the 90s.
[31] Surajit Chaudhuri and Umeshwar Dayal. 1997. An overview of data warehousing and OLAP technology. SIGMOD Rec. 26, 1 (March 1997) and “Implementing Data Cubes Efficiently”
[32] Decker S., Erdmann M., Fensel D., Studer R. (1999) Ontobroker: Ontology Based Access to Distributed and Semi-Structured Information. In: Meersman R., Tari Z., Stevens S. (eds) Database Semantics
[33] https://www.ercim.eu/publication/Ercim_News/enw51/EN51.pdf
[34] Mapreduce has received criticism from the database community due to its lack of novelty. Additionally, the map and reduce functions on cluster of machines can be traced back to parallel expert systems such as DADO and Connection Machine covered in the previous chapter.
[35] Researchers studied the semantic web from a foundational point of view. Notably, Alberto Mendelezon, who had already been working on graphs during the previous 20 years, made a point to study the semantic web in “Foundations of Semantic Web Databases”. We see other work such as “Semantics and Complexity of SPARQL”, “The Expressive Power of SPARQL”, among others.
[36] Noy et al. Industry-Scale Knowledge Graphs: Lessons and Challenges. Communications of the ACM, August 2019, Vol. 62 No. 8, Pages 36-43
[37]https://www.slideshare.net/Frank.van.Harmelen/adoption-of-knowledge-graphs-late-2019
via http://knowledgegraph.today/paper.html
点击“
阅读
原文
”查看
知识图谱系列文章