随着互联网的兴起,每天都有不同形式的大量的文本数据产生:新闻、研究文献、 博客、论坛文字以及社交媒体评论等。很多重要有用的信息隐藏在其中,如何从这些自 由文本中自动抽取所需要的信息是一个关键并且重要的一步。信息抽取任务就是为此目 标而诞生。本文主要研究信息抽取子任务之一的实体关系抽取任务。该任务旨在识别文 本中出现的实体,并判断出实体之间存在的关系。

传统的有监督实体关系抽取通常采用基于流水线的方法,即实体模型和关系模型 分开训练。在测试阶段,先用实体模型识别出实体,然后关系模型找出这些实体之间的 关系。这种流水线的方法存在着错误传播的缺点,前一个任务的错误会累积到后一个任 务。为了缓解这一问题,研究人员提出了联合模型。联合模型将两个子模型统一建模, 可以进一步利用两个任务之间的潜在信息,以缓解错误传播的缺点。联合模型的难点是 如何加强实体模型和关系模型之间的交互,比如实体模型和关系模型的输出之间存在着 一定的约束,在建模的时候考虑到此类约束将有助于联合模型的性能。

另一方面,为了解决实体关系抽取数据集难以获得的问题,远程监督的方法也被提 出来。其主要思想是利用知识库和大规模文本数据对齐,自动构建大规模的训练集。然 而,远程监督方法的缺点是自动构建的训练集中存在着很多的噪音数据,这些噪音数据 的存在对远程监督实体关系抽取有着很大的负面影响。此外,在有些应用场景中可能没 有现成的知识库可以用来进行远程监督,如何解决类似的数据噪音和数据缺失问题也是 一大挑战。

根据实体关系抽取方法的研究现状,本文从数据和联合模型两个角度探索了几种实 体关系抽取联合模型,并且探究了所提出模型的优势和不足。具体来说,本文的主要贡 献有

    1. 为了缓解远程监督中的噪音样本问题,本文提出利用少量高质量异构的人工标注 数据集帮助远程监督实体关系抽取任务。本文设计了一个基于多任务学习的融合 框架,并且在融合过程中考虑到子模型之间的一致性约束,从而实现知识的迁移。本文提出的系统在标准远程监督数据集能够显著的提高联合抽取的性能(数据角 度)。
    1. 为了解决某些领域没有现成知识库无法进行远程监督的问题,本文提出利用语言 学规则进行远程监督。首先应用领域无关的语言学规则自动构建训练集,然后使用 分类器在得到的训练集上进行训练,最后利用分类器进一步抽取语言学规则无法 覆盖的新的实体关系。本文提出的算法很快并且适用于大规模数据。在 Amazon 在 i 线评论数据集上的实验表明了本文提出的算法明显优于多个基准模型(数据角度)。
    1. 为了加强实体模型和关系模型之间的交互,本文提出基于风险最小化训练方法的 联合实体关系抽取模型,通过优化全局的损失函数以达到加强实体模型和关系模 型之间联系的目的。在 ACE05 数据集上的实验证明了提出模型的有效性(联合模 型角度)。
    1. 为了同时考虑到实体类型和关系类型的信息,本文提出一个基于图卷积网络的联 合模型用于实体关系抽取。我们构造了实体-关系二分图,并在图上运行图卷积网 络,从而捕获多个实体和多个关系之间的信息。在 ACE05 数据集上的实验证明了 提出模型的有效性(联合模型角度)。

https://www.czsun.site/

成为VIP会员查看完整内容
87

相关内容

专知会员服务
55+阅读 · 2020年12月20日
专知会员服务
77+阅读 · 2020年12月6日
【CCL2020】基于深度学习的实体关系抽取研究综述
专知会员服务
52+阅读 · 2020年11月4日
实体关系抽取方法研究综述
专知会员服务
177+阅读 · 2020年7月19日
最新《多任务学习》综述,39页pdf
专知会员服务
264+阅读 · 2020年7月10日
基于深度学习的多标签生成研究进展
专知会员服务
142+阅读 · 2020年4月25日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
79+阅读 · 2019年10月12日
【论文解读】基于copy机制的端到端实体关系抽取模型
深度学习自然语言处理
3+阅读 · 2020年7月20日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
nlp中的实体关系抽取方法总结
深度学习自然语言处理
22+阅读 · 2020年7月4日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 基于知识库的自然语言理解 02#
开放知识图谱
8+阅读 · 2019年2月24日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
黑龙江大学自然语言处理实验室
19+阅读 · 2017年12月14日
Arxiv
0+阅读 · 2021年10月21日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
5+阅读 · 2021年6月3日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2015年11月29日
VIP会员
相关VIP内容
专知会员服务
55+阅读 · 2020年12月20日
专知会员服务
77+阅读 · 2020年12月6日
【CCL2020】基于深度学习的实体关系抽取研究综述
专知会员服务
52+阅读 · 2020年11月4日
实体关系抽取方法研究综述
专知会员服务
177+阅读 · 2020年7月19日
最新《多任务学习》综述,39页pdf
专知会员服务
264+阅读 · 2020年7月10日
基于深度学习的多标签生成研究进展
专知会员服务
142+阅读 · 2020年4月25日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
79+阅读 · 2019年10月12日
相关资讯
【论文解读】基于copy机制的端到端实体关系抽取模型
深度学习自然语言处理
3+阅读 · 2020年7月20日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
nlp中的实体关系抽取方法总结
深度学习自然语言处理
22+阅读 · 2020年7月4日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 基于知识库的自然语言理解 02#
开放知识图谱
8+阅读 · 2019年2月24日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
黑龙江大学自然语言处理实验室
19+阅读 · 2017年12月14日
微信扫码咨询专知VIP会员