南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文,系统阐述最新神经信息抽取关键技术

2022 年 5 月 30 日 专知
最新神经信息抽取综述论文




开放信息抽取(OpenIE)有助于从大型语料库中独立于领域的关系事实发现。该技术非常适合许多开放世界的自然语言理解场景,如自动知识库构建、开放领域问题回答和显式推理。由于深度学习技术的快速发展,许多神经OpenIE架构被提出,并取得了相当大的性能提升。在这项综述中,我们提供了最先进的神经OpenIE模型的广泛概述,它们的关键设计决策,优点和缺点。然后,我们讨论了当前解决方案的局限性和OpenIE问题本身的开放性问题。最后,我们列出了有助于扩大其范围和适用性的最新趋势,为OpenIE的未来研究奠定了良好的方向。据我们所知,这是关于神经OpenIE的第一篇综述


https://www.zhuanzhi.ai/paper/12abd9cf76dadf37a0ae75527019ba31


OpenIE(开放信息抽取)以n元关系元组的形式提取事实,即(arg1, predicate, arg2,…, argn),从非结构化文本,而不依赖预定义的本体模式[Niklaus等人,2018]。图1显示了从给定句子中提取的示例OpenIE元组。与传统的(或封闭的)IE系统要求预定义关系相比,OpenIE减少了设计复杂的、领域相关的关系模式的人力劳动。因此,它有可能在最少的人工干预下处理异构语料库。通过OpenIE,可以开发Web规模的无约束IE系统,获取大量的知识。然后,收集的知识可以集成并用于广泛的自然语言处理(NLP)应用,如文本蕴积[Berant et al., 2011],总结[Stanovsky et al., 2015],问题回答[Fader et al., 2014; Mausam, 2016]和显性推理[Fu et al., 2019]。



在深度学习之前,传统的OpenIE系统要么基于统计,要么基于规则,并且严重依赖于语法模式的分析[Niklaus et al., 2018]。最近,由于大规模OIE基准(如OIE2016 [Stanovsky and Dagan, 2016], CaRB [Bhardwaj et al., 2019]),以及基于神经的模型在各种NLP任务上的巨大成功(如NER [Li et al.,2022],机器翻译[Yang et al.,2020]),神经OpenIE解决方案变得流行起来。从Stanovsky等人2018年和Cui等人2018年开始,基于神经的方法主导了OpenIE研究,因为它们在多个OpenIE基准上具有良好的提取质量。神经解决方案主要将OpenIE定义为序列标记问题或序列生成问题。基于标记的方法将句子中的标记或span标记为参数或谓词[Stanovsky et al.,2018;Kolluru et al.,2020a;詹和赵,2020]。生成方法使用自回归神经结构从句子输入中生成提取[Cui et al.,2018;Kolluru et al.,2020b]。最近的一些工作侧重于通过引入新的损失来校准神经模型参数[Jiang et al.,2019年],或通过引入新的目标来实现语法上合理和语义上一致的提取[Tang et al.,2020年]。


本文系统地回顾了神经OpenIE系统。现有的OpenIE综述[Niklaus et al., 2018; Glauber and Claro, 2018; Claro et al., 2019]关注传统解决方案,并没有很好地涵盖最近的基于神经的方法。由于范式的改变,OpenIE未来研究机会的潜在途径也需要重新考虑。在这项综述中,我们总结了最近的研究进展,分类现有的神经OpenIE方法,确定剩余的问题,并讨论开放的问题和未来的方向。本文的主要贡献如下: 1) 基于神经OpenIE模型的任务公式,提出了神经OpenIE模型的分类方法。然后我们讨论他们的优点和缺点; 2) 我们对OpenIE的背景和评估方法进行了有益的讨论。我们还提供了当前SOTA方法的详细比较;3) 我们讨论了制约OpenIE发展的三个挑战:评估、注释和应用。在此基础上,我们突出未来的方向: 更开放、更专注、更统一



神经OpenIE解决方案


标记模型 Tagging-based Models


基于标记的模型将OpenIE定义为序列标记任务。给定一组标记,其中每个标记表示一个标记或标记跨度的一个角色(例如,参数,谓词),模型学习每个标记或标记跨度以句子为条件的标记的概率分布。然后,OpenIE系统根据预测的标记输出元组。基于标记的OpenIE模型与NLP中用于序列标记任务的其他神经模型(例如,NER NER [Li et al., 2022])共享类似的架构。一个模型通常包含三个模块: 生成标记的分布式表示的嵌入层,生成上下文感知的标记表示的编码器,以及基于标记表示和标记方案预测标记的标记解码器。该嵌入层通常将词嵌入与句法特征嵌入相结合,以更好地捕获句子中的句法信息。最近,预训练语言模型(PLMs)在各种NLP任务中表现出了卓越的性能[Devlin et al,2019]。因为PLM产生上下文感知的令牌表示,它们既可以用于产生令牌嵌入,也可以用作编码器。根据标记方案,我们将模型分为基于token的模型、基于span的模型和基于图的模型


生成式模型 Generative Models


生成模型将OpenIE定义为一个序列生成问题,它读取一个句子并输出一系列的提取。图2(d)给出了生成序列的示例。形式上,给定一个令牌序列S和期望的提取序列Y = (y1, y2,…, ym),模型使条件概率Q P(Y |S) = IIp(yi |y1, y2, . . . , yi−1; S); 也有生成对抗性元组的工作,目的是使分类器难以将它们与真实元组区分开来。


模型结果比较



神经OpenIE系统在两个流行的基准OIE2016和CaRB上的性能,每个都有多个部分匹配策略。每个评估设置下的最佳结果(基于可用的分数)以黑体显示,次佳的结果以下划线显示。文献中缺失的结果标记为“-”。由于logcian仅在中国基准上进行评估,而Adversarial-OIE仅在OIE2016上给出了precision-recall曲线,没有AUC评分,因此这两个系统不在这里列出。为了全面起见,我们还包括了两种流行的基于规则的系统,即ClausIE和OpenIE4。

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“NIE” 就可以获取南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文,系统阐述最新神经信息抽取关键技术》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
0

相关内容

专知会员服务
14+阅读 · 2021年8月29日
专知会员服务
65+阅读 · 2021年8月1日
专知会员服务
18+阅读 · 2021年4月3日
专知会员服务
47+阅读 · 2021年3月5日
最新《文本深度学习模型压缩》综述论文,21页pdf
专知会员服务
25+阅读 · 2020年8月19日
专知会员服务
199+阅读 · 2020年3月6日
论文浅尝 | KnowEdu: 一个自动构建教育知识图谱的系统
开放知识图谱
2+阅读 · 2021年9月3日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年7月25日
Arxiv
22+阅读 · 2022年3月31日
Arxiv
101+阅读 · 2020年3月4日
Arxiv
15+阅读 · 2019年6月25日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年8月29日
专知会员服务
65+阅读 · 2021年8月1日
专知会员服务
18+阅读 · 2021年4月3日
专知会员服务
47+阅读 · 2021年3月5日
最新《文本深度学习模型压缩》综述论文,21页pdf
专知会员服务
25+阅读 · 2020年8月19日
专知会员服务
199+阅读 · 2020年3月6日
相关基金
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Top
微信扫码咨询专知VIP会员