开放信息抽取(OpenIE)是自然语言处理中的一项关键任务,旨在从开放领域的非结构化文本中提取结构化的关系三元组。这项技术非常适合许多开放世界的自然语言理解场景,例如问答系统、知识库/知识图谱构建、显式推理和文本摘要。与在可预测领域中具有预定义本体结构的封闭信息抽取(IE)任务不同,OpenIE的目标是以开放形式提取简洁但具有意义的实体和关系。因此,所提取三元组中的关系、主语/宾语的格式更加灵活,从而增加了评估的难度。同时,OpenIE的模式学习也极具挑战性,因为缺乏充足的金标准训练数据。现有的OpenIE模型通常通过无监督或远程监督的方式进行训练,因此所学得的模式往往不如金标准的效果。

在本论文中,我们提出了多种创新方法以应对OpenIE模式学习中的挑战。我们方法的核心主题是利用各种类型的上下文来提升OpenIE的表现。首先,我们提出通过文档级上下文来改进OpenIE。作为一项新任务,我们引入了DocOIE,这是第一个用于评估文档级OpenIE系统的专家标注数据集。在此背景下,我们提出了一种名为DocIE的神经OpenIE系统,可以利用文档级上下文来提取关系三元组。其次,我们研究了如何使用额外的句法信息作为外部上下文来改进OpenIE。我们设计了一种新策略,将组成树中的短语级关系映射为词级关系,并通过句法路径信息增强每个词的表示。我们提出了SMiLe-OIE,这是第一个通过GCN编码器和多视角学习结合异构句法信息的神经OpenIE系统。

第三,我们研究了如何提升OpenIE的效率和适应性。相应地,我们提出了一种新颖的"句子-块序列"(SaC)概念作为OpenIE的中间层,同时提出了Chunk-OIE,一种端到端的学习模型,该模型(i)将句子表示为SaC,并(ii)基于SaC提取三元组。通过与金标准三元组的数据分析,我们展示了块在OpenIE中提供了一种合适的标记跨度粒度。最后,我们提出并研究了一个新的研究任务,通过链接推测检测和OpenIE来检验OpenIE的可靠性。具体而言,我们提出检测三元组级推测,以确保OpenIE仅提取事实信息。为此,我们提出了SpecTup,一个用于检测三元组级推测的基线模型,结合语义(BERT)和句法(子依赖图)表示。 总之,尽管OpenIE问题已被确立并广泛研究,本论文为进一步改进OpenIE贡献了几个关键思想和概念。此外,本论文也为未来OpenIE的研究方向提供了有前景的启示。

https://dr.ntu.edu.sg/handle/10356/174529

成为VIP会员查看完整内容
15

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【WWW2024】知识数据对齐的弱监督异常检测
专知会员服务
22+阅读 · 2月7日
【CVPR2022】弱监督目标定位建模为领域适应
专知会员服务
15+阅读 · 2022年3月4日
【WWW2021】充分利用层级结构进行自监督分类法扩展
专知会员服务
15+阅读 · 2021年2月7日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月14日
Arxiv
0+阅读 · 11月13日
Arxiv
0+阅读 · 11月12日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员