【ACL2020】最新效果显著的关系抽取框架了解一下?

2020 年 6 月 19 日 AINLP
点击 蓝色字体 星标+关注




效果显著的关系抽取框架

导    语

从非结构化文本中抽取三元组是构建大规模知识图谱的必备关键,然而现有的研究工作鲜有去解决三元组重叠的问题,针对此问题,本文从全新的视角提出一个新的关系抽取框架:CASREL,不同以往采用分类的视角解决问题,从实验结果来看,框架非常有效,加上 BERT 之后,更为惊人,在两份数据集上面,分别提升 17% 和 32%。


     该论文目前在arxiv上面,已经被 ACL2020 接受
    文末附代码 Github Repo。


背景与思路


    信息抽取是构建大规模知识图谱的必备关键,先来说一下图谱的三元组形式,在以往常常将三元组以 (head,relation, tail) 的形式表示,在这里以(subject, relation, object)的形式表示,即(S, R,O),为了方便描述,后文将以这种形式阐述。


    信息抽取分为两大部分,一部分是命名实体识别,识别出文本中的实体,另外就是关系抽取,对识别出来的实体构建对应的关系,两者便是构建三元组的基本组成。在以往的研究工作中,早期两个任务以pipline的方式进行,先做命名实体识别,然后做关系抽取。但是pipline的流程可能造成实体的识别错误,也就造成关系构建的错误,所以后续的一些研究工作将两者采用联合学习的方式。


    但是上述存在很少的研究工作解决三元组重叠的问题,本文以此为解决目标,提出新的模型框架,首先来看一下三元组重叠的问题具体指什么?看下图,列举了三种形式。

  1. Normal: 代表没有重叠的部分。

  2. EPO(EntityPairOverlap): 关系两端的实体都是一致的,例如 QT 既在电影 DU 中扮演角色,又是电影 DU 的执导。

  3. SEO(SingleEntityOverlap): 关系两端只有单个实体共享,图中的例子,从小范围来说,JRB 出生在 Washington, 但是 Washington 是 USA 的首都,所以也可以说 JRB 出生在 USA。



    以往工作的不足以及重叠三元组出现的挑战

  1. 在实体对的组合之中,大多数实体对是没有关系链接的,这便存在很多的负例,也就造成了关系分类的不平衡。
  2. 重叠三元组的问题更是一个难点,因为其存在共享的实体,甚至两个实体存在多种关系,这便增加了难度,没有足够的训练数据,是难以学习或者根本无法学习这种关系的。

    思想:采用全新的视角代替以往分类的视角,将关系建模为 S 到 O 的映射函数。提出一个全新的框架:CASREL。

框架详解


    CASREL框架抽取三元组(subject, relation, object)主要包含两个步骤,三个部分。


    两个步骤:

  1. 第一步要识别出句子中的 subject 。

  2. 第二部要根据识别出的 subject, 识别出所有有可能的 relation 以及对应的 object。


    三个部分:
  1. BERT-based encoder module: 可以替换为不同的编码框架,主要对句子中的词进行编码,论文最终以BERT为主,效果很强。
  2. subject tagging module:目的是识别出句子中的 subject。
  3. relation-specific object tagging module:根据 subject,寻找可能的 relation 和 object。
  4. 其中 a 是 Encoder, b 和 c 称为 Cascade Decoder。

    框架图:


    BERT Encoder
    这部分的就是对句子编码,获取每个词的隐层表示,可以采用 BERT 的任意一层,另外这部分是可以替换的,例如用 LSTM 替换 BERT。

   
Subject Tagger
  
这部分的主要作用是对 BERT Encoder 获取到的词的隐层表示解码,构建两个二分类分类器预测 subject 的 start 和 end 索引位置,对每一个词计算其作为 start 和 end 的一个概率,并根据某个阈值,大于则标记为1,否则标记为0。公式如下:

    如框架图中所示,Jackie 被标记为 start,R 既不是 start 也不是 end, Brown 被标记为 end,其他的类似。在这里采用了最近匹配的原则,即与 jackie 最近的一个 end 词是 Brown, 所以 Jackie R. Brown 被识别为一个subject。文中并未考虑前面位置的情况。

    Relation-specific Object Taggers
    这部分会同时识别出 subject 的 relation 和相关的 object。
解码的时候比 Subject Tagger 不仅仅考虑了 BERT 编码的隐层向量, 还考虑了识别出来的 subject 特征,即下图。v
sub 代表 subject 特征向量,若存在多个词,将其取向量平均,h n 代表 BERT 编码向量。


    对于识别出来的每一个 subject, 对应的每一种关系会解码出其 object 的 start 和 end 索引位置,与  Subject Tagger 类似,公式如下:



    我们以图中的例子详细说明一下,图中的例子仅仅画出了第一个 subject 的过程,即 Jackie R. Brown,对于这个,在关系 Birth_place 中识别出了两个 object,即 Washington United States Of America,而在其他的关系中未曾识别出相应的 object。当对 Washington 这个 subject 解码时,仅仅在 Capital_of 的关系中识别出 对应的 object: United States Of America。


    以上我们便可以得到抽取到的三个三元组如下:

  1. (Jackie R. Brown, Birth_place, Washington)

  2. (Jackie R. Brown, Birth_place, United States Of America)

  3. (Washington, Capital_of, United States Of America)


    从以上抽取出来的三元组,确实解决了最开始提到的 SEO 和 EPO 的重叠问题。

    


实验效果


     验证CASREL框架效果采用的是两个公开的数据集,NYT 和 WebNLG。

    具体的实验效果如下,其中 CASREL 分别采用了 随机初始化参数的BERT编码端、 LSTM 编码端以及预训练 BERT 编码端,实验结果主要说明以下结论:
  1. CASREL 框架确实有效,三种编码结构的效果都是要远高于其他的模型性能。
  2. 采用预训练 BERT 之后,CASREL 框架更是逆天。





结束语

         本文从全新的角度考虑三元组抽取工作,效果着实惊人,令人惊叹。不知道这样的架构是否可以在业界应用,以及在中文上的效果如何?


论文代码:https://github.com/weizhepei/CasRel



参考资料

  1. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction



相关注明

上述图片均来自于上述参考资料。




文章推荐阅读



【ACL2020论文尝鲜】如何以低成本的数据构建高效NER模型?

【ACL2020论文尝鲜】何时采用BERT更加有效?

知识表示学习Trans系列梳理(论文+代码)

论文解读|知识图谱最新研究综述

【图谱构建】图谱构建之知识抽取

知识表示学习(图谱Embedding)系列问题

知识抽取之NER(一) | 顶会论文解读



END




推荐阅读

【数据挖掘实操】用文本挖掘剖析近5万首《全唐诗》

如何让Bert在finetune小数据集时更“稳”一点

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

太赞了!Springer面向公众开放电子书籍,附65本数学、编程、机器学习、深度学习、数据挖掘、数据科学等书籍链接及打包下载

数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?

自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了

这门斯坦福大学自然语言处理经典入门课,我放到B站了

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,点个在看吧👇

登录查看更多
1

相关内容

三元组是指形如((x,y),z)的集合(这就是说,三元组是这样的偶,其第一个射影亦是一个偶),常简记为(x,y,z)。三元组是计算机专业的一门公共基础课程——数据结构里的概念。主要是用来存储稀疏矩阵的一种压缩方式,也叫三元组表。假设以顺序存储结构来表示三元组表(triple table),则得到稀疏矩阵的一种压缩存储方式,即三元组顺序表,简称三元组表。
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
133+阅读 · 2020年2月13日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
检索式chatbot了解一下?
黑龙江大学自然语言处理实验室
6+阅读 · 2018年9月28日
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
【知识图谱】知识图谱实体链接无监督学习框架
产业智能官
10+阅读 · 2018年4月15日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
21+阅读 · 2019年8月21日
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关VIP内容
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
133+阅读 · 2020年2月13日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
检索式chatbot了解一下?
黑龙江大学自然语言处理实验室
6+阅读 · 2018年9月28日
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
【知识图谱】知识图谱实体链接无监督学习框架
产业智能官
10+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员