End-to-end relation extraction (E2ERE) is an important task in information extraction, more so for biomedicine as scientific literature continues to grow exponentially. E2ERE typically involves identifying entities (or named entity recognition (NER)) and associated relations, while most RE tasks simply assume that the entities are provided upfront and end up performing relation classification. E2ERE is inherently more difficult than RE alone given the potential snowball effect of errors from NER leading to more errors in RE. A complex dataset in biomedical E2ERE is the ChemProt dataset (BioCreative VI, 2017) that identifies relations between chemical compounds and genes/proteins in scientific literature. ChemProt is included in all recent biomedical natural language processing benchmarks including BLUE, BLURB, and BigBio. However, its treatment in these benchmarks and in other separate efforts is typically not end-to-end, with few exceptions. In this effort, we employ a span-based pipeline approach to produce a new state-of-the-art E2ERE performance on the ChemProt dataset, resulting in $> 4\%$ improvement in F1-score over the prior best effort. Our results indicate that a straightforward fine-grained tokenization scheme helps span-based approaches excel in E2ERE, especially with regards to handling complex named entities. Our error analysis also identifies a few key failure modes in E2ERE for ChemProt.


翻译:端到端关系提取(E2ERE)是信息提取中的一项重要任务,特别是对于生物医学,因为科学文献持续呈指数级增长。 E2ERE通常涉及识别实体(或命名实体识别(NER))和相关关系,而大多数RE任务仅假设实体在提前提供,并最终执行关系分类。由于NER可能导致更多RE错误的滚雪球效应,因此E2ERE本质上比仅使用RE更困难。在生物医学E2ERE中的一个复杂数据集是ChemProt数据集(BioCreative VI,2017),该数据集识别科学文献中化合物和基因/蛋白质之间的关系。 ChemProt包含在所有最近的生物医学自然语言处理基准测试中,包括BLUE,BLURB和BigBio。但是,在这些基准测试以及其他单独的努力中,通常不会对其进行端到端处理,除了少数例外。在这个项目中,我们采用基于跨度的流程方法,以在ChemProt数据集上产生新的最先进的E2ERE性能,导致F1分数比先前的最佳努力提高了$> 4 \% $。我们的结果表明,直接的细粒度标记化方案有助于基于跨度的方法在E2ERE方面表现出色,特别是关于处理复杂命名实体方面。我们的错误分析还确定了ChemProt中E2ERE的几种关键故障模式。

0
下载
关闭预览

相关内容

Nat. Biotechnol. | 用机器学习预测多肽质谱库
专知会员服务
17+阅读 · 2022年9月12日
基于几何结构预训练的蛋白质表征学习
专知会员服务
14+阅读 · 2022年8月21日
AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙
专知会员服务
13+阅读 · 2022年8月1日
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
42+阅读 · 2020年11月22日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月22日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
Nat. Biotechnol. | 用机器学习预测多肽质谱库
专知会员服务
17+阅读 · 2022年9月12日
基于几何结构预训练的蛋白质表征学习
专知会员服务
14+阅读 · 2022年8月21日
AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙
专知会员服务
13+阅读 · 2022年8月1日
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
42+阅读 · 2020年11月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员