本文描述了一个工具集,将英语的法律判决转化为由本体支持的RDF表示的事件集合。两个不同的判决来源被用来演示:欧洲人权法院(ECHR)和欧洲法院(ECJ)。文本文件,尤其是结构化的,经过一个管道,被分析、注释,最后被转化为一个三元组存储,可以通过一个开放的SPARQL端点进行查询。转化服务允许将与时间相关的信息从不同的格式转换过来。相关的本体论在网上是公开的,源代码可以以开放的方式获得,一个门户网站展示了该工具集。标准的采用和面向服务的架构分别有利于该框架的互操作性和可扩展性。一套预定义的查询工具可以从知识图谱中检索到信息。
关键词:事件,时间表达,法律领域,事件提取,基于事件的知识图谱,本体论
路德维希-维特根斯坦在他的《逻辑学原理》(Tractatus LogicoPhilosophicus)一书中指出,世界是事实的集成体,而不是事物的集成体--这对于对命题的真实性感兴趣的逻辑学家来说,这是一个相当合理的观察结果。在评价一项法律决策中描述的事件时,关注事件及其逻辑顺序似乎也非常合理,并且其故事情节具有举足轻重的意义。本文假设一个判决可以被描述为一系列有时间标记的事件,而不是专注于其他实体(事物)。
这并不是第一个与事件相关的知识图谱。以事件为中心的知识图谱最早是在2016年提出的[1],并且已经在不同的领域实现了,比如文章处理[2]、新闻[1]甚至是旅游[3]。在这些情况下,以事件为中心的知识图谱(ECKG)是 "一个知识图谱,其中所有的信息都与事件相关,通过这些事件,图谱中的知识具有时间维度"[1]。与普通的知识图谱不同的是,在普通的知识图谱中,信息通常围绕着一些中心实体,而ECKG将重点放在具体的事件上,从不同的来源检索关于它们的信息,并将其结合起来,以便正确地描述它们。
与这种方法不同的是,我们的目标是以事件为基础来描述法律决策,即描述法律判决的支撑块。我们认为一个案件是不同维度事件的叙述,即程序性的或相对于被判决的案件而言,将一个案件表示为一系列的事件,这对于法律领域的各种应用是非常有用的。由于这个概念与之前对ECK的定义略有不同,我们决定将我们的方法命名为基于事件的知识图谱。
在法律领域,最近有几项提案深入研究了构建知识图谱 [4],包括 Lynx 项目 [5] 等倡议,旨在构建多语言知识图谱以支持与合规相关的服务。尽管最近做出了这些努力,但它们都没有解决事件处理。
与之前的相关工作(如EventsKG[2])不同,我们在该领域没有以前的结构化知识库,以帮助我们建立基于事件的知识图谱,而只是拥有没有注释的法律文件库。因此,我们的第一步必须是对原始文件进行检索和处理,以便从中提取相关事件。尽管我们的方法像以事件为中心的知识图谱一样关注事件,但我们并不像EventKG这样的项目理解事件。我们处理和表示法律文本中提到的形成法律案件的相关事件(行动或发生)。即使最终可以整合其他类型的资源,如与案件有关的新闻,或对其他法院的上诉,如国民,我们仍将重点放在判决书中提到的事件上。因此,我们对基于事件的知识图谱的定义是一个知识图谱,其中信息被表示为一系列的事件,但可以引入额外的信息,如事件所产生的注释。
在进行事件提取之前,我们对以前在法律领域的方法进行了分析[6]。在介绍这项工作时提出的一个建议是,在处理事件相关性时要考虑到话语提取。我们已经考虑到了这一点,并在第3.1小节中进一步讨论。此外,在以前的语料库时间注释工作[7]中检测到的法院之间的差异,导致我们选择了其中一些法院来实施。这种选择也导致了第一个话语分析模块的出现,该模块依赖于文档的类型,选择文本的相关部分,采用事件提取器对其进行处理。为了证明我们的事件提取方法很容易推广,我们使用了两个不同的来源来检索法律文件,即欧洲人权法院(ECHR)和欧洲法院(ECJ),这使得我们可以在此背景下重新使用他们的判决。
一旦文档中的事件被提取出来,它们就会被转换成RDF格式,使用一个本体论和一个专门为此目的而创建的转换器。最后,带有所提取的事件的文件注释被发送到知识图谱中,以备后续查询。考虑到法律领域的从业人员通常不熟悉语义网技术,我们提供了一个带有一系列预定义查询的服务,以方便使用知识图谱。
这项工作的主要贡献有以下几点:
a) 一个能够从欧洲法院检索文件的服务,提取其中的相关事件并建立一个时间线,使人类能够轻松地浏览该文件。
b) 一个支持时间信息表示的本体论,它简化了时间相关格式之间的转换。
c) 一个转换器,可以接受各种形式的时间注释,并将其输出为RDF。
d) 一个基于事件的英文法律判决知识图谱,可以方便地进行查询。
此外,为了方便测试这些贡献的互动,我们创建了一个网页,可以一步一步地测试该管道。
本文的组织结构如下。第2节探讨了以前的相关文献工作。第3节介绍了我们从欧洲法院提取事件并建立时间线的工具。第4节介绍了为表示事件和时间信息而建立的本体,而第5节介绍了我们为完成格式之间的转换而创建的转换工具。第6节介绍了从以前的工具中产生的基于事件的知识图谱,以及可能的采用方案。最后,第7节概述了主要的贡献和未来要探索的研究方向