本文转载自公众号 PaperWeekly
什么是关系抽取?
关系抽取是在实体识别之后还是同时呢?
关系抽取有哪些经典的方法和应用?
关系抽取有哪些可用的数据集?
在使用远程抽取构造数据集时怎么将三元组和句子相关联?
是否可以考虑把关系抽取与其他任务进行结合?
端到端对复杂关系抽取有什么好方法?
➊
什么是关系抽取?
Q: 什么是关系抽取?
A: 我理解的关系抽取是从文本中抽取出特定的关系,以及具有这种关系的实体。
A: 实体关系种类的多分类?
A: 确定实体之间存在关系?
A: 这个先后顺序有问题么,还是先抽取实体,再确定一对实体之间的关系?
A: 面向特定领域的关系抽取研究和面向开放互联网文本的关系抽取研究。面向特定领域的关系抽取技术以基于标注语料的机器学习方法为主;面向开放互联网文本的关系抽取则根据不同任务需要,采取基于启发式规则的方法或者基于背景知识库实例的机器学习方法。
A: 关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组。
A: 限定域的关系抽取问题一般都是当作分类问题来处理的。
A: 从自然语言文本中寻找并判定实体对之间存在的特定关系。
➋
关系抽取是在实体识别之后还是同时呢?
Q: 关系抽取是在实体识别之后还是同时呢?
A: 一般是分开,但是今年有些论文是一起。
A: 可以之后也可以同时。
A: 之前那篇:paper Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme,就是关系和实体的联合抽取。
A: 最近有好几篇都是一起建模。
A: 传统的都是先识别实体再针单个句子进行抽取,今年那篇 ACL 是一起 tag 的。
A: 以前一般都是先识别实体,然后识别实体间的关系,但是这种做法存在错误累积的问题,所以有一些工作试图通过联合抽取的方法来提高准确率。
A: 以前是 pipeline 的,现在是并行。
A: with Knowledge Bases 也是两者联合抽取的。
A: 一起建模的话有个坏处是 NER 训练不充分。
A: 如果在一个训练过的 NER 模型基础上训练一个联合模型是不是会好些?
A: 联合抽取会共享参数,可能对之后的关系抽取任务有帮助。
A: 我是觉得如果有训练很好的 NER,分开搞更好。
A: 也不知道,开个脑洞,记得之前好像有工作那一个预训练的 NER 模型作为输入再训练。
Q: 有人了解 Google rankbrain 的做法吗?
A: Google 声称是无监督方法做的,我认为是种子迭代联合抽取。
A: 应该不可能做到完全无监督吧。
➌
关系抽取有哪些经典的方法和应用?
Q: 关系抽取有哪些经典的方法和应用?
A: 总感觉句法树在自然文本上不靠谱。
A: 目前远程监督的方法比较占优?
A: 看着用的人挺多的呀。
A: 只能通过这种方法造数据呀。
Q: 关系抽取用远程监督现在是不是比较多呢?
A: 主导的方法是。
A: 远程抽取得到的数据集 ground truth 相比于人工标注就有一些噪音问题,总觉得有哪里怪怪的。
A: 嗯,这种先天性的噪声,目前没看到有相关文献去解决这个事情,可能本身也不好解决吧?
Q: 除了远程监督,还有别的方法么?
A: 除了远程监督之外,我知道的有两种,一种是 Bootstrapping,代表系统是 NELL,还有一种是 OPEN IE,代表系统是 TextRunner。
A: 知识图谱中的 path 特征也有被用来做关系抽取的。
A: bootstrapping 这种方法需要不停叠代,做起来麻烦,估计一般人不会去尝试。
A: NELL 跑了好多年了吧?上次看过一眼 NELL 的论文,说是跑到一定程度也上不去了。
A: 嗯,现在好像已经没什么消息了。
A: 只有 boostraping,其他的没思路。
A: 还有就是人标注。
A: 我觉得用一定的语言规则加 pattern 加好的评估方法可以解决部分问题。
A: 规则和 pattern 总是在实际中相当有效的,但是做到前面太难了。
➍
关系抽取有哪些可用的数据集?
Q: 关系抽取有哪些可用的数据集?
A: ACE04,05。
A: SemEval Task8。
A: 还有这个:http://iesl.cs.umass.edu/riedel/ecml/。
A: openIE 啊,不需要事先定义。
A: openIE 是以动词作为关系描述的吧,那个抽出来质量参差不齐。
A: 召回率要低一些。
A: KV 融合了好几个 KB。
➎
在使用远程抽取构造数据集时怎么将三元组和句子相关联?
Q: 大家在使用远程抽取构造数据集的时候怎么将三元组和句子关联起来的?
A: 直接查找。
A: https://arxiv.org/pdf/1609.07479.pdf
Q: 那同义词怎么定义的?自己定义?还是有什么工具?比如特朗普和川普这就指的是一个人。
A: 同义词库需要事先定义,要么就是上下文。
Q: 上下文具体怎么实现?
A: 有上下文就是有语料。
A: Google 的 Knowledge Vault 论文:http://www.cs.ubc.ca/~murphyk/Papers/kv-kdd14.pdf
A: KV 还是在 Closed World Assumption 的基础上做的,而且 KV 还利用了文本以外的特征,如表格、网页结构等。
Q: 有人关注过今年 TACL , MSR 那篇 cross-sentence relation extraction 吗?还挺新的 task。
A: 跨句子的关系抽取,打破了以前的假设。
A: 这位作者 Chris Quirk 的后续工作是发在了 TACL 上: http://www.cs.jhu.edu/~npeng/papers/TACL_17_RelationExtraction.pdf
A: 嗯,是那两篇,提出一个跨句子关系抽取的新 task,虽然方法基本上还是用的句依存关系。
➏
是否可以考虑把关系抽取与其他任务进行结合?
Q: 是否可以考虑把关系抽取与其他任务结合呢,像 machine reading, QA 之类的?
A: 开放 KG 和 QA 是趋势,机器阅读和开放 KG 同样如此。
A: 关系抽取特别是因果关系和相关关系,在疾病风险预估方面工业界有应用。
A: 关系抽取技术在疾病预测中一般作为一种特征来源,一般考虑多模态的多,结合图像和生理诊断指标,我所了解的,然后在故障检测中,关系抽取也是有应用的地方,特别是在类似故障搜索方面,但设备数据一般掌握在大厂手中,学术上论文很少。
A: 中医辨证。
A: 中医已经超出目前的模型的范围,中医问题也是现实世界面临的问题。
Q: 在疾病或故障预测方面,有用过Bayesian network的童鞋么?
A: Bayesian network 在工业界有不少实际案例,比如发动机故障、飞机故障检测方面。
Q: Bayesion network 的有向图和 CNN 结合有童鞋试过么?
A: RNN 和贝叶斯可以。
❼
端到端对复杂关系抽取有什么好方法?
Q: 端到端对复杂关系抽取有什么好方法么?比如姚明的老婆的孩子的姥爷的年龄。
A: 长关系链。
A: 复杂关系的定义,我感觉是两个实体或者是事件,在空间和事件的概率分布较远。
A: 在对文本数据的复杂关系抽取中,很难只靠文本数据本身抽取,因为时间因素模糊了。
A: 我知道一个大厂用图结构(deep tensor)结合 CNN 做了很多成功尝试和应用,在制药领域预测化合物活性方面成果不错。
A: 比如在基于知识库的问答过程中,想用端到端的方法,解决类似上面问题或者“最先登月的人的老婆叫什么”。
A: 你那个问题,类似隐结构算法。
请长按识别以下二维码添加群主微信,备注「知识图谱」申请入群。
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在 PaperWeekly 公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。