【知识图谱】知识图谱从哪儿来?实体关系抽取的现状和未来

2020 年 2 月 4 日 产业智能官

BAAI 北京智源人工智能研究院

12月17日晚,2019年清华特奖获得者之一,清华大学自然语言处理实验室大四本科生高天宇,在智源论坛Live第1期,以《实体关系抽取的现状和未来》为主题,与150位观众进行了在线交流。本文出自此前韩旭、高天宇、刘知远撰写的《知识图谱从哪里来:实体关系抽取的现状与未来》
(https://zhuanlan.zhihu.com/p/91762831)

另外,关注高天宇同学科研经历的小伙伴,别错过下面的采访视频及附在文末的直播问答。


“智源论坛Live”第2期将于12月24日晚7:30-8:30开播,报名可点击文章最下方「阅读原文」。
 


知识图谱从哪里来:实体关系抽取的现状与未来


作者:韩旭,高天宇,刘知远


最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向,极大推动了自然语言处理的发展。来到 2019 年的今天,深度学习的诸多局限性也慢慢得到广泛认知。对于自然语言处理而言,要做到精细深度的语义理解,单纯依靠数据标注与算力投入无法解决本质问题。如果没有先验知识的支持,「中国的乒乓球谁都打不过」与「中国的足球谁都打不过」,在计算机看来语义上并没有巨大差异,而实际上两句中的「打不过」意思正好相反。因此,融入知识来进行知识指导的自然语言处理,是通向精细而深度的语言理解的必由之路。然而,这些知识又从哪里来呢?这就涉及到人工智能的一个关键研究问题——知识获取。



知识图谱


现有大型知识图谱,诸如Wikidata、Yago、DBpedia,富含海量世界知识,并以结构化形式存储。如下图所示,每个节点代表现实世界中的某个实体,它们的连边上标记实体间的关系。这样,美国作家马克·吐温的相关知识就以结构化的形式记录下来。
 

目前,这些结构化的知识已被广泛应用于搜索引擎、问答系统等自然语言处理应用中。但与现实世界快速增长的知识量相比,知识图谱覆盖度仍力有未逮。由于知识规模巨大而人工标注昂贵,这些新知识单靠人力标注添加几无可能完成。为了尽可能及时准确地为知识图谱增添更加丰富的世界知识,研究者们努力探索高效自动获取世界知识的办法,即实体关系抽取技术。
 
具体来说,给定一个句子和其中出现的实体,实体关系抽取模型需要根据句子语义信息推测实体间的关系。例如,给定句子:「清华大学坐落于北京近邻」以及实体「清华大学」与「北京」,模型可以通过语义得到「位于」的关系,并最终抽取出(清华大学,位于,北京)的知识三元组。


实体关系抽取是一个经典任务,在过去的 20 多年里都有持续研究开展,特征工程、核方法、图模型曾被广泛应用其中,取得了一些阶段性的成果。随着深度学习时代来临,神经网络模型则为实体关系抽取带来了新的突破。

神经网络关系抽取模型

 
面向自然语言文本序列已经有很多神经网络类型,例如循环神经网络(RNN、LSTM)、卷积神经网络(CNN)和Transformer 等,这些模型都可以通过适当改造用于关系抽取。最初,工作 [1,2] 首次提出使用 CNN 对句子语义进行编码,用于关系分类,比非神经网络方法比性能显著提升;工作 [3,4] 将 RNN 与 LSTM 用于关系抽取;此外,工作 [5] 提出采用递归的神经网络对句子的语法分析树建模,试图在提取语义特征的同时考虑句子的词法和句法特征,这个想法也被不少后续工作的进一步探索。这里,我们列出一个表格,总结各类典型神经网络在基准测试数据集合 SemEval-2010 Task-8 [6] 上的效果。


从上表可以看出,这些神经网络模型均取得了优异的实验结果,且相互之间没有显著的性能差异。这是否意味着关系抽取问题就此解决了呢?实际上并非如此。SemEval-2010 Task-8 的任务设定为,对预先定义好的关系类别标注大量的训练和测试样例,样例都是相对简单的短句,而且每种关系的样例分布也比较均匀。然而,实际应用中往往面临很多挑战:

数据规模问题:人工精准地标注句子级别的数据代价十分高昂,需要耗费大量的时间和人力。在实际场景中,面向数以千计的关系、数以千万计的实体对、以及数以亿计的句子,依靠人工标注训练数据几乎是不可能完成的任务。

学习能力问题:在实际情况下,实体间关系和实体对的出现频率往往服从长尾分布,存在大量的样例较少的关系或实体对。神经网络模型的效果需要依赖大规模标注数据来保证,存在「举十反一」的问题。如何提高深度模型的学习能力,实现「举一反三」,是关系抽取需要解决的问题。

复杂语境问题:现有模型主要从单个句子中抽取实体间关系,要求句子必须同时包含两个实体。实际上,大量的实体间关系往往表现在一篇文档的多个句子中,甚至在多个文档中。如何在更复杂的语境下进行关系抽取,也是关系抽取面临的问题。
      
开放关系问题:现有任务设定一般假设有预先定义好的封闭关系集合,将任务转换为关系分类问题。这样的话,文本中蕴含的实体间的新型关系无法被有效获取。如何利用深度学习模型自动发现实体间的新型关系,实现开放关系抽取,仍然是一个「开放」问题。

所以说,SemEval-2010Task-8 这样的理想设定与实际场景存在巨大鸿沟,仅依靠神经网络提取单句语义特征,难以应对关系抽取的各种复杂需求和挑战。我们亟需探索更新颖的关系抽取框架,获取更大规模的训练数据,具备更高效的学习能力,善于理解复杂的文档级语境信息,并能方便地扩展至开放关系抽取。
 
我们认为,这四个方面构成了实体关系抽取需要进一步探索的主要方向。接下来,我们分别介绍这四个方面的发展现状和挑战,以及我们的一些思考和努力。



更大规模的训练数据


神经网络关系抽取需要大量的训练数据,但是人工 标注这些训练数据非常费时昂贵。 为了自动获取更多的训练数据训练模型,工作 [16] 提出了远程监督(Distant Supervision)的思想,将纯文本与现有知识图谱进行对齐,能够自动标注大规模训练数据。
 
远程监督的思想并不复杂,具体来说:如果两个实体在知识图谱中被标记为某个关系,那么我们就认为同时包含这两个实体的所有句子也在表达这种关系。再以(清华大学,位于,北京)为例,我们会把同时包含「清华大学」和「北京」两个实体的所有句子,都视为「位于」这个关系的训练样例。


远程监督的这种启发式标注规则是把双刃剑,它是自动标注训练数据的有效策略,但其过强的设定不可避免地产生错误标注。例如对于知识图谱中(清华大学,校长,邱勇)这个三元组事实,句子「邱勇担任清华大学校长」可以反映「清华大学」与「邱勇」之间「校长」的关系;但是句子「邱勇考入清华大学化学与化学工程系」以及「邱勇担任清华大学党委常委」并不表达「校长」关系,但却会被远程监督的启发式规则错误地标注为「校长」关系的训练实例。
 

虽然远程监督思想非常简单也存在很多问题,不过它为更多收集训练数据开启了新的纪元。受到这个思路的启发,很多学者积极考虑如何尽可能排除远程监督数据中的噪音标注的干扰。从 2015 年开始,基于远程监督与降噪机制的神经关系抽取模型得到了长足的发展,工作[17] 引入了多实例学习方法,利用包含同一实体对的所有实例来共同预测实体间关系。我们课题组林衍凯等人工作[19] 提出句子级别注意力机制,对不同的实例赋予不同的权重,用以降低噪音实例造成的影响。工作 [20] 引入对抗训练来提升模型对噪音数据的抵抗能力。工作 [21] 则构建了一套强化学习机制来筛除噪音数据,并利用剩余的数据来训练模型。
 
总结来说,已有对远程监督的降噪方法可以兼顾了关系抽取的鲁棒性与有效性,也具有较强的可操作性和实用性。不过,使用已有知识图谱对齐文本来获取数据训练关系抽取模型,再利用该模型来抽取知识加入知识图谱,本身就有一种鸡生蛋与蛋生鸡的味道。不完善的知识图谱对齐所得到的文本训练数据也将是不完善的,对那些长尾知识而言,仍难以通过这种远程监督机制来得到训练实例。如何提出更有效的机制来高效获取高质量、高覆盖、高平衡的训练数据,仍然是一个值得深入思考的问题。



更高效的学习能力


即使通过远程监督等办法能够自动获取高质量的训练数据,由于真实场景中关系和实体对的长尾分布特点,绝大部分的关系和实体对的可用样例仍然较少。而且,对于医疗、金融等专业领域的专门关系,受限于数据规模的问题可用样例也很有限。而神经网络模型作为典型的 data-hungry 技术,在训练样例过少时性能会受到极大影响。因此,研究者们希望探索有效提升模型学习能力的方法,以更好地利用有限训练样例取得满意的抽取性能。
 
实际上,人类可以通过少量样本快速学习知识,具有「举一反三」的能力。为了探索深度学习和机器学习「举一反三」的能力,提出了少次学习(Few-shot learning)任务。通过设计少次学习机制,模型能够利用从过往数据中学到的泛化知识,结合新类型数据的少量训练样本,实现快速迁移学习,具有一定的举一反三能力。
 
过去少次学习研究主要集中于计算机视觉领域,自然语言处理领域还少有探索。我们课题组韩旭同学等的工作 [21] 首次将少次学习引入到关系抽取,构建了少次关系抽取数据集 FewRel,希望推动驱动自然语言处理特别是关系抽取任务的少次学习研究。如下图所示,关系抽取少次学习问题仅为每种关系提供极少量样例(如 3-5 个),要求尽可能提高测试样例上的关系分类效果。

 


FewRel 论文工作初步尝试了几个代表性少次学习方法包括度量学习(Metric learning)、元学习(Meta learning)、参数预测(Parameter prediction)等,评测表明即使是效果最佳的原型网络(Prototypical Networks)模型,在少次关系抽取上的性能仍与人类表现相去甚远。
 
为了更好解决远程监督关系抽取的少次学习问题,我们课题组的高天宇同学等的工作[22] 提出了基于混合注意力机制的原型网络,同时考虑实例级别和特征级别的注意力机制,在减少噪音标注影响的同时,能更好地关注到句中的有用特征,实现高效少次学习。工作 [23] 提出多级匹配和整合结构,充分学习训练样例之间的潜在关联,尽可能挖掘为数不多的样例中的潜在信息。工作 [24] 则采用了预训练语言模型 BERT 来处理关系抽取中的少次学习问题,基于海量无监督数据训练的 BERT,能够为少次学习模型提供有效的语义特征,在 FewRel 数据上取得了超过人类关系分类的水平。
 
在对少次学习关系抽取探究的过程中,课题组的高天宇同学等进一步发现两个长期被忽视的方面 [25]:要将少次学习模型用于生产环境中,应具备从资源丰富领域迁移到资源匮乏领域(low-resourcedomains)的能力,同时还应具备检测句子是否真的在表达某种预定义关系或者没有表达任何关系的能力。为此他们提出了 FewRel 2.0,在原版数据集 FewRel 的基础上增加了以下两大挑战:领域迁移(domain adaptation)和「以上都不是」检测(none-of-the-abovedetection)。
 
对于领域迁移挑战,FewlRel 2.0 采集了大量医疗领域的数据并进行标注,要求关系抽取模型在原语料进行训练后,还可以在这些新领域语料上进行少次学习。对于「以上都不是」检测,FewRel 2.0 在原 N-way K-shot 设定(给定 N 个新类型,每个类型给定 K 个训练样本)上,添加了一个「以上都不是」选项,大大增加了分类和检测难度。
 
初步实验发现,以往有效的模型(包括基于 BERT 的模型)在这两大挑战任务均有显著性能下降。尽管高天宇同学等在 FewRel 2.0 论文中也尝试了一些可能的解决思路:例如对于领域迁移尝试了经典的对抗学习方法,模型性能得到了一定的提升;对于「以上都不是」检测,提出了基于 BERT next sentence prediction task 的BERT-PAIR 模型,可以在」以上都不是」挑战取得一点效果。但这两大挑战依然需要更多创新探索。
 
总结来说,探索少次学习关系抽取,让关系抽取模型具备更强大高效的学习能力,还是一个非常新兴的研究方向,特别是面向关系抽取的少次学习问题,与其他领域的少次学习问题相比,具有自身独有的特点与挑战。不论是基于已有少次学习技术作出适于 NLP 和关系抽取的改进,还是提出全新的适用于关系抽取的少次学习模型,都将最大化地利用少量标注数据,推动关系抽取技术的落地实用。
 

更复杂的文本语境

 
现有关系抽取工作主要聚焦于句子级关系抽取,即根据句内信息进行关系抽取,各类神经网络模型也擅长编码句子级语义信息,在很多公开评测数据能够取得最佳效果。而在实际场景中,大量的实体间关系是通过多个句子表达的。如下图所示,文本中提到多个实体,并表现出复杂的相互关联。根据从维基百科采样的人工标注数据的统计表明,至少 40%的实体关系事实只能从多个句子中联合获取。为了实现多个实体间的跨句关系抽取,需要对文档中的多个句子进行阅读推理,这显然超出了句子级关系抽取方法的能力范围。因此,进行文档级关系抽取势在必行。
   

文档级关系抽取研究需要大规模人工标注数据集来进行训练和评测。目前文档级关系抽取数据集还很少。工作 [26,27] 构建了两个远程监督的数据集,由于没有进行人工标注因此评测结果不太可靠。BC5CDR [28] 是人工标注的文档级关系抽取数据集,由 1,500 篇 PubMed 文档构成是生物医学特定领域,且仅考虑「化学诱导的疾病」关系,不一定适合用来探索文档级关系抽取的通用方法。工作 [29] 提出使用阅读理解技术回答问题的方式从文档中提取实体关系事实,这些问题从」实体-关系「对转换而来。由于该工作数据集是针对这种方法量身定制的,也不那么适用于探索文档级关系抽取的通用方法。这些数据集或者仅具有少量人工标注的关系和实体,或者存在来自远程监督的噪音标注,或者服务于特定领域或方法,有这样或那样的限制。
 
为了推动文档级关系抽取的研究,课题组姚远同学等 [30] 提出了 DocRED 数据集,是一个大规模的人工标注的文档级关系抽取数据集,基于维基百科正文和WikiData 知识图谱构建而成,包含 5,053 篇维基百科文档,132,375 个实体和 53,554 个实体关系事实,是现有最大的人工标注的文档级关系抽取数据集。如下图所示,文档级关系抽取任务要求模型具有强大的模式识别、逻辑推理、指代推理和常识推理能力,这些方面都亟待更多长期的研究探索。

   


更开放的关系类型


现有关系抽取工作一般假设有预先定义好的封闭关系集合,将任务转换为关系分类问题。然而在开放域的真实关系抽取场景中,文本中包含大量开放的实体关系,关系种类繁多,而且关系数量也会不断增长,远超过人为定义的关系种类数量。在这种情况下,传统关系分类模型无法有效获取文本中蕴含的实体间的新型关系。如何利用深度学习模型自动发现实体间的新型关系,实现开放关系抽取,仍然是一个开放问题。
 


为了实现面向开放领域的开放关系抽取,研究提出开放关系抽取(OpenRelation Extraction,OpenRE)任务,致力于从开放文本抽取实体间的任意关系事实。开放关系抽取涉及三方面的「开放」:首先是抽取关系种类的开放,与传统关系抽取不同,它希望抽取所有已知和未知的关系;其次是测试语料的开放,例如新闻、医疗等不同领域,其文本各有不同特点,需要探索跨域鲁棒的算法;第三是训练语料的开放,为了获得尽可能好的开放关系抽取模型,有必要充分利用现有各类标注数据,包括精标注、远程监督标注数据等,而且不同训练数据集的关系定义和分布也有所不同,需要同时利用好多源数据。
 
在前深度学习时代,研究者也有探索开放信息抽取(Open InformationExtraction,OpenIE)任务。开放关系抽取可以看做OpenIE 的特例。当时 OpenIE 主要通过无监督的统计学习方法实现,如 Snowball 算法等。虽然这些算法对于不同数据有较好的鲁棒性,但精度往往较低,距离实用落地仍然相距甚远。
 
最近,课题组吴睿东同学等的工作 [31] 提出了一种有监督的开放关系抽取框架,可以通过」关系孪生网络「(Relation Siamese Network,RSN)实现有监督和弱监督模式的自由切换,从而能够同时利用预定义关系的有监督数据和开放文本中新关系的无监督数据,来共同学习不同关系事实的语义相似度。具体来说,关系孪生网络 RSN 采用孪生网络结构,从预定义关系的标注数据中学习关系样本的深度语义特征和相互间的语义相似度,可用于计算包含开放关系文本的语义相似度。而且,RSN 还使用了条件熵最小化和虚拟对抗训练两种半监督学习方法进一步利用无标注的开放关系文本数据,进一步提高开放关系抽取的稳定性和泛化能力。基于 RSN 计算的开放关系相似度计算结果,模型可以在开放域对文本关系进行聚类,从而归纳出新型关系。
   


课题组高天宇同学等人工作 [32] 则从另一个角度出发,对于开放域的特定新型关系,只需要提供少量精确的实例作为种子,就可以利用预训练的关系孪生网络进行滚雪球(Neural SnowBall),从大量无标注文本中归纳出该新型关系的更多实例,不断迭代训练出适用于新型关系的关系抽取模型。
 
总结来说,开放域关系抽取在前深度学习时代取得了一些成效,但如何在深度学习时代与神经网络模型优势相结合,有力拓展神经网络关系抽取模型的泛化能力,值得更多深入探索。


为了更及时地扩展知识图谱,自动从海量数据中获取新的世界知识已成为必由之路。以实体关系抽取为代表的知识获取技术已经取得了一些成果,特别是近年来深度学习模型极大地推动了关系抽取的发展。但是,与实际场景的关系抽取复杂挑战的需求相比,现有技术仍有较大的局限性。我们亟需从实际场景需求出发,解决训练数据获取、少次学习能力、复杂文本语境、开放关系建模等挑战问题,建立有效而鲁棒的关系抽取系统,这也是实体关系抽取任务需要继续努力的方向。
 
我们课题组从 2016 年开始耕耘实体关系抽取任务,先后有林衍凯、韩旭、姚远、曾文远、张正彦、朱昊、于鹏飞、于志竟成、高天宇、王晓智、吴睿东等同学在多方面开展了研究工作。去年在韩旭和高天宇等同学的努力下,发布了 OpenNRE 工具包 [33],经过近两年来的不断改进,涵盖有监督关系抽取、远程监督关系抽取、少次学习关系抽取和文档级关系抽取等丰富场景。此外,也花费大量科研经费标注了 FewRel(1.0 和 2.0)和 DocRED 等数据集,旨在推动相关方向的研究。
 
本文总结了我们对实体关系抽取现状、挑战和未来发展方向的认识,以及我们在这些方面做出的努力,希望能够引起大家的兴趣,对大家有些帮助。期待更多学者和同学加入到这个领域研究中来。当然,本文没有提及一个重要挑战,即以事件抽取为代表的复杂结构的知识获取,未来有机会我们再专文探讨。
 
限于个人水平,难免有偏颇舛误之处,还请大家在评论中不吝指出,我们努力改进。需要说明的是,我们没想把这篇文章写成严谨的学术论文,所以没有面面俱到把每个方向的所有工作都介绍清楚,如有重要遗漏,还请批评指正。

上下滑动查看

参考文献:

[1] ChunYang Liu, WenBo Sun, WenHan Chao, Wanxiang Che. Convolution Neural Network for Relation Extraction. The 9th International Conference on Advanced Data Mining and Applications (ADMA 2013).


[2] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, Jun Zhao. Relation Classification via Convolutional Deep Neural Network. The 25th International Conference on Computational Linguistics (COLING 2014).


[3] Dongxu Zhang, Dong Wang. Relation Classification via Recurrent Neural Network. arXiv preprint arXiv:1508.01006 (2015).


[4] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).


[5] Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. The 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2012).


[6] Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid Ó Séaghdha, Sebastian Padó, Marco Pennacchiotti, Lorenza Romano, Stan Szpakowicz. SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations between Pairs of Nominals. The 5th International Workshop on Semantic Evaluation (SEMEVAL 2010).


[7] Thien Huu Nguyen, Ralph Grishman. Relation Extraction: Perspective from Convolutional Neural Networks. The 1st Workshop on Vector Space Modeling for Natural Language Processing (LatentVar 2015).


[8] Cícero dos Santos, Bing Xiang, Bowen Zhou. Classifying Relations by Ranking with Convolutional Neural Networks. The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2015).


[9] Shu Zhang, Dequan Zheng, Xinchen Hu, Ming Yang. Bidirectional Long Short-Term Memory Networks for Relation Classification. The 29th Pacific Asia Conference on Language, Information and Computation (PACLIC 2015).


[10] Minguang Xiao, Cong Liu. Semantic Relation Classification via Hierarchical Recurrent Neural Network with Attention. The 26th International Conference on Computational Linguistics (COLING 2016).


[11] Kun Xu, Yansong Feng, Songfang Huang, Dongyan Zhao. Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).


[12] Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng, Zhi Jin. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).


[13] Yang Liu, Furu Wei, Sujian Li, Heng Ji, Ming Zhou, Houfeng Wang. A Dependency-Based Neural Network for Relation Classification. The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2015).


[14] Yan Xu, Ran Jia, Lili Mou, Ge Li, Yunchuan Chen, Yangyang Lu, Zhi Jin. Improved Relation Classification by Deep Recurrent Neural Networks with Data Augmentation. The 26th International Conference on Computational Linguistics (COLING 2016).


[15] Rui Cai, Xiaodong Zhang, Houfeng Wang. Bidirectional Recurrent Convolutional Neural Network for Relation Classification. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).


[16] Mike Mintz, Steven Bills, Rion Snow, Daniel Jurafsky. Distant Supervision for Relation Extraction without Labeled Data. The 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2009).


[17] Daojian Zeng, Kang Liu, Yubo Chen, Jun Zhao. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).


[18] Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, Maosong Sun. Neural Relation Extraction with Selective Attention over Instances. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).


[19] Yi Wu, David Bamman, Stuart Russell. Adversarial Training for Relation Extraction. The 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017).


[20] Jun Feng, Minlie Huang, Li Zhao, Yang Yang, Xiaoyan Zhu. Reinforcement Learning for Relation Classification from Noisy Data. The 32th AAAI Conference on Artificial Intelligence (AAAI 2018).


[21] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, Maosong Sun. FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation. The 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP 2018).


[22] Tianyu Gao, Xu Han, Zhiyuan Liu, Maosong Sun. Hybrid Attention-based Prototypical Networks for Noisy Few-Shot Relation Classification. The 33th AAAI Conference on Artificial Intelligence (AAAI 2019).


[23] Zhi-Xiu Ye, Zhen-Hua Ling. Multi-Level Matching and Aggregation Network for Few-Shot Relation Classification. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).


[24] Livio Baldini Soares, Nicholas FitzGerald, Jeffrey Ling, Tom Kwiatkowski. Matching the Blanks: Distributional Similarity for Relation Learning. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).


[25] Tianyu Gao, Xu Han, Hao Zhu, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou. FewRel 2.0: Towards More Challenging Few-Shot Relation Classification. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).


[26] Chris Quirk, Hoifung Poon. Distant Supervision for Relation Extraction beyond the Sentence Boundary. The 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2017).


[27] Nanyun Peng, Hoifung Poon, Chris Quirk, Kristina Toutanova, Wen-tau Yih. Cross-Sentence N-ary Relation Extraction with Graph LSTMs. Transactions of the Association for Computational Linguistics (TACL 2017).


[28] Chih-Hsuan Wei, Yifan Peng, Robert Leaman, Allan Peter Davis, Carolyn J. Mattingly, Jiao Li, Thomas C. Wiegers, Zhiyong Lu. Overview of the BioCreative V Chemical Disease Relation (CDR) Task. The 5th BioCreative Challenge Evaluation Workshop (BioC 2015).


[29] Omer Levy, Minjoon Seo, Eunsol Choi, Luke Zettlemoyer. Zero-Shot Relation Extraction via Reading Comprehension. The 21st Conference on Computational Natural Language Learning (CoNLL 2017).


[30] Yuan Yao, Deming Ye, Peng Li, Xu Han, Yankai Lin, Zhenghao Liu, Zhiyuan Liu, Lixin Huang, Jie Zhou, Maosong Sun. DocRED: A Large-Scale Document-Level Relation Extraction Dataset. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).


[31] Ruidong Wu, Yuan Yao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Open Relation Extraction: Relational Knowledge Transfer from Supervised Data to Unsupervised Data. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).


[32] Tianyu Gao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Neural Snowball for Few-Shot Relation Learning. The 34th AAAI Conference on Artificial Intelligence (AAAI 2020).


[33] Xu Han, Tianyu Gao, Yuan Yao, Deming Ye, Zhiyuan Liu, Maosong Sun. OpenNRE: An Open and Extensible Toolkit for Neural Relation Extraction. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2019).



作者简介

韩旭,清华大学计算机科学与技术系博士三年级同学,主要研究方向为自然语言处理、知识图谱、信息抽取。在人工智能领域国际著名会议 AAAI、ACL、EMNLP、COLING、NAACL 上发表多篇论文,是 OpenKE、OpenNRE 等开源项目的开发者之一。

主页:thucsthanxu13.github.io


高天宇,清华大学计算机系大四本科生,主要研究方向为自然语言处理、知识图谱、关系抽取。在人工智能领域国际著名会议 AAAI、EMNLP 上发表多篇论文,是 OpenNRE 等开源项目的主要开发者之一。

主页:gaotianyu.xyz


刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。

主页:nlp.csai.tsinghua.edu.cn



观众问答



在FewRel 2.0里已有的方法为什么不能很好地处理none-of-the-above detection? 是否有其他方法处理这个问题?

已有方法不能很好地处理的原因,一是设计的时候没有考虑这个问题,很多Few-Shot模型都是针对N分类,并没有考虑到多出来的none-of-the-above一类,即“以上都不是”; 二是对于一些度量模型,比如之前提到的Prototypical Network,即encode所有到欧氏空间里,再用欧式距离判断query到底属于哪个关系类型,这些对于真实的关系类型很容易计算,但对于“以上都不是”类型,很难在欧氏空间里刻画到底哪片区域属于“以上都不是”类型,所以对于Prototypical Network这类模型很难解决none-of-the-above detection的任务。 在FewRel 2.0里,我们提出了一个叫BERT-PAIR的模型,它是基于两两比较的,即输入两个句子,看这两个句子表达的是不是同一种关系类型。 因为这是一个二分类的任务,在二分类的场景下,相对而言比较好解决none-of-the-above detection。 例如有5个类型,均输出“No”,那自然句子属于none-of-the-above,不过这个模型距离理想的表现还是有一定差距,需要我们投入更多的努力。


在FewRel数据集里面的关系类型都是P177这样的编号,对应具体的关系类型含义如何查看?

P开头的编号其实是WikiData的编号,大家可以去WikiData网站看一下,里面包括了WikiData实体及关系类型的介绍。 如果我们在搜索框直接输入“P177”,就可以直接跳转到“P177”的界面,这里面会有相关名称和介绍,甚至还包含了一些图谱里具体的例子。


关于few-shot learning,如果是基于metric learning,学习的是个度量,是否不需要考虑领域迁移的问题,即只需要关心query与support set之间的相似度,不需要关注具体的query以及support set的领域特征?

当我们在transfer learning当中期望能学到好的度量,不管测试集是否见过或者领域是什么,都想得到很好的表示,可以直接通过表示判断属于哪个类别。 但真实情况是,没见过的domain的句子,encoder得到的向量是比较“差”的,就是说两个句子即使表示不同的关系类型,encoder的向量可能还是会很相近,就没有办法分类。 例如在FewRel 2.0中,训练集与1.0训练集一样,都是Wikipedia,验证和测试集是医疗的domain,来自于Pubmed,包含很多生物和医疗论文的文本。 从这里面挑选数据进行标注,就会发现如果模型在Wikipedia上进行训练,在Pubmed里encode的向量质量就会不高,直接做分类效果就比较差。 这跟目前metric learning的方法有关,基本上在few-shot阶段是没有adaptation的过程,直接使用训练集上训练的encoder,拿到测试的domain去用,没有变通过程。 这其实也是未来研究方向之一,即向optimization-based meta-learning看齐。 虽说假定encoder训练得比较好,但到了一个新领域的确对于某些instance的encode效果会比较差,所以是否能利用少量的instance对encoder参数做一些优化,让它对新的domain的instance能得到更好的表示? 我觉得这样分类的效果会更好。


在现实数据中,关系分类的正负比例大多应该是不平衡的,负例应会远多于正例,请问目前的这些模型在正负例不平衡的情况下性能是否会受较大的影响? 目前对于正负例极其不平衡的情况下,有何缓解方法?


其实我之前的分享里没有提到,关系抽取一个非常大的挑战就是关于负例的解决,因为大家的研究更多集中在封闭的关系集合里,而在实际的开放场景中,会有很多负例,甚至可能90%或99%的数据都不想要,只有1%或10%的数据是想要的,所以如何解决负例就很重要。 在distance supervision有一个比较经典的数据集叫NYT,它里面的负例就非常多。 目前,一种比较好的解决办法是在lost上加权重,然后将负例也当做一个类别,这时候如果负例太多,就会在lost上有dominate的后果,解决方法是我们可以通过给一个比较低的权重,再给其他instance比较高的权重,就会得到一些好的效果; 另一个方法就是调整训练数据的比例配置,因为其实负例获取相对简单,可以按照测试场景调配负例比例,比如现在应用场景有80%负例,那训练时候也用80%,因为训练和测试场景,无论数据配比还是数据来源,越相近越好; 此外,我们还有一个可能的方法就是先做负例检测,这比较像在question answering里面,当问的问题在选项中没有答案时,常见的做法是先判断有没有答案,若有答案再分类,没答案则直接输入结果。


能否推荐一些适合做这些实体关系训练的开源数据集?

我们的OpenNRE里已经列了一些数据集,比如经典的SemEval, TACRED,NYT之类,特别要说明的是TACRED数据集,它是现在大家公认的比较好的数据集,但因为版权的问题,不能公开下载,我们可以去它们的官网看一下介绍,需要的话便去购买语料库,以便使用这个数据集。 在其他领域,在Few-Shot里面有我们的FewRel数据集,在document-level relation extraction有DocRED数据集。


请问开放关系抽取用seed迭代的方法寻找新样例会不会导致积累的关系过于同质化?如果是怎么解决这个问题?同时在积累样本时,一般如何度量新关系的可靠度?是依靠网页的确信度吗?

的确用seed迭代会有同质化问题,即挖掘的新instance与最初的seed比较像,另外一个问题就是跑数据的过程中会跑偏,挖掘新的instance时会挖到一些噪声数据没被过滤掉,最后就会发现越迭代新的数据噪声越大,对模型的毒害也越大。 像第二个问题,semantic shift,我们的模型解决得比较好,我刚才也提到用relational Siamese network,我会去判断我新挖的数据和我精标的seed之间的度量,如果比较相近才会留下,关于这一点在我们的论文里有详细阐述。 同时对relational Siamese network我们已经做了一些单独评测,发现它虽然从没有见过这些新类型的instance,但也能比较好地判断两个instance是否属于同一类型。 不过的确,模型所产生的同质化问题会比较严重,我们保证了精度,但模型容易陷入一个“舒适区”,总在确信的范围里挖,其实它是挖不出太多新东西。 虽然我们的模型会有一个两步走的策略,用distant supervision和relation classifier来找新的instance,但因为用relational Siamese Network进行了过滤,剩下的大多instance和原来会比较像。 这也将是我们下一步工作的重点,就是如何挖掘更广泛的instance。


先进制造业+工业互联网




产业智能官  AI-CPS


加入知识星球“产业智能研究院”:先进制造业OT(自动化+机器人+工艺+精益)和工业互联网IT(云计算+大数据+物联网+区块链+人工智能)产业智能化技术深度融合,在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的产业智能化平台;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。


产业智能化平台作为第四次工业革命的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎; 重构设计、生产、物流、服务等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生 新技术、新产品、新产业、新业态和新模式; 引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。

产业智能化技术分支用来的今天,制造业者必须了解如何将“智能技术”全面渗入整个公司、产品、业务等商业场景中, 利用工业互联网形成数字化、网络化和智能化力量,实现行业的重新布局、企业的重新构建和焕然新生。

版权声明产业智能官(ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:erp_vip@hotmail.com。




登录查看更多
4

相关内容

关系抽取指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及(mention)链接起来的任务。关系提取任务需要在一组工件(通常来自文本或XML文档)中对语义关系提及进行检测和分类。该任务与信息抽取(IE)的任务非常相似,但是IE还需要删除重复关系(消除歧义),并且通常指的是提取许多不同的关系。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
86+阅读 · 2020年5月2日
【天津大学】知识图谱划分算法研究综述
专知会员服务
108+阅读 · 2020年4月27日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
知识图谱从哪里来:实体关系抽取的现状与未来
AI科技评论
13+阅读 · 2019年11月17日
公开课 | 知识图谱构建与应用概述
开放知识图谱
52+阅读 · 2019年11月6日
【知识图谱】知识图谱怎么与深度学习结合?
产业智能官
159+阅读 · 2018年12月18日
领域应用 | 知识图谱的技术与应用
开放知识图谱
17+阅读 · 2018年6月14日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
大规模知识图谱的构建、推理及应用
CSDN大数据
7+阅读 · 2017年9月7日
漆桂林 | 开放:知识图谱发展的必由之路
开放知识图谱
7+阅读 · 2017年6月28日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2018年7月4日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关VIP内容
相关资讯
知识图谱从哪里来:实体关系抽取的现状与未来
AI科技评论
13+阅读 · 2019年11月17日
公开课 | 知识图谱构建与应用概述
开放知识图谱
52+阅读 · 2019年11月6日
【知识图谱】知识图谱怎么与深度学习结合?
产业智能官
159+阅读 · 2018年12月18日
领域应用 | 知识图谱的技术与应用
开放知识图谱
17+阅读 · 2018年6月14日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
大规模知识图谱的构建、推理及应用
CSDN大数据
7+阅读 · 2017年9月7日
漆桂林 | 开放:知识图谱发展的必由之路
开放知识图谱
7+阅读 · 2017年6月28日
相关论文
Top
微信扫码咨询专知VIP会员