开放信息抽取(OpenIE)是自然语言处理中的一项关键任务,旨在从开放领域的非结构化文本中提取结构化的关系三元组。这项技术非常适合许多开放世界的自然语言理解场景,例如问答系统、知识库/知识图谱构建、显式推理和文本摘要。与在可预测领域中具有预定义本体结构的封闭信息抽取(IE)任务不同,OpenIE的目标是以开放形式提取简洁但具有意义的实体和关系。因此,所提取三元组中的关系、主语/宾语的格式更加灵活,从而增加了评估的难度。同时,OpenIE的模式学习也极具挑战性,因为缺乏充足的金标准训练数据。现有的OpenIE模型通常通过无监督或远程监督的方式进行训练,因此所学得的模式往往不如金标准的效果。
在本论文中,我们提出了多种创新方法以应对OpenIE模式学习中的挑战。我们方法的核心主题是利用各种类型的上下文来提升OpenIE的表现。首先,我们提出通过文档级上下文来改进OpenIE。作为一项新任务,我们引入了DocOIE,这是第一个用于评估文档级OpenIE系统的专家标注数据集。在此背景下,我们提出了一种名为DocIE的神经OpenIE系统,可以利用文档级上下文来提取关系三元组。其次,我们研究了如何使用额外的句法信息作为外部上下文来改进OpenIE。我们设计了一种新策略,将组成树中的短语级关系映射为词级关系,并通过句法路径信息增强每个词的表示。我们提出了SMiLe-OIE,这是第一个通过GCN编码器和多视角学习结合异构句法信息的神经OpenIE系统。
第三,我们研究了如何提升OpenIE的效率和适应性。相应地,我们提出了一种新颖的"句子-块序列"(SaC)概念作为OpenIE的中间层,同时提出了Chunk-OIE,一种端到端的学习模型,该模型(i)将句子表示为SaC,并(ii)基于SaC提取三元组。通过与金标准三元组的数据分析,我们展示了块在OpenIE中提供了一种合适的标记跨度粒度。最后,我们提出并研究了一个新的研究任务,通过链接推测检测和OpenIE来检验OpenIE的可靠性。具体而言,我们提出检测三元组级推测,以确保OpenIE仅提取事实信息。为此,我们提出了SpecTup,一个用于检测三元组级推测的基线模型,结合语义(BERT)和句法(子依赖图)表示。 总之,尽管OpenIE问题已被确立并广泛研究,本论文为进一步改进OpenIE贡献了几个关键思想和概念。此外,本论文也为未来OpenIE的研究方向提供了有前景的启示。